Tema 2
Tema 2
Explicando el formulario.
Si tengo los datos agrupados en frecuencias absolutas es cuando multiplico [Link] en la media (es
decir, en vez de hacer 2+2+2+3+3 hago (2x3)+(3x2).
Si no los tengo agrupados en frecuencias pues lo haces normal sumando.
En la varianza sesgada es igual,si estan agrupados se multiplica [Link] y si no pues se hace normal.
La varianza insesgada (cuasivarianza) es con la que se trabaja en los contrastes de hipotesis (se
divide entre N-1). La varianza insesgada tiene mejores propiedades que la sesgada. Si nos dan
resultados de salida de ordenador, los paquetes estadisticos trabajan con la insesgada OJO
CUIDAO.
Los indices de sesgo y de curtosis nos serviran en el tema 7 para las puntuaciones de los
[Link] NOS SIRVE PARA SABER SI UNA CURVA ES NORMAL O NO , YA QUE SI ES
NORMAL DEBE SER SIMETRICA Y MESOCURTICA.
Definición de Validez
Validez es el grado en el que un instrumento de medida mide lo que se propone medir (Cronbach,
1984). Aunque la definición del concepto parece simple no lo es, como se puede comprobar en la
extensa bibliografía que hay acerca del mismo. Anteriormente, otros autores dieron definiciones
similares. Vernon (1963) añade que un test es válido para algún fin o propósito.
Se valida un instrumento de medida con relación al fin o propósito para el que se utiliza. Un
instrumento puede ser perfectamente válido para medir una determinada característica y no serlo
para medir otra. Por tanto, la validez se encarga de analizar qué mide realmente el test y de probar
cuál es realmente su utilidad para predecir otras variables relacionadas.
Cronbach (1988, p.6) indica que se debe considerar también en la validación de un test un aspecto
relevante como las consecuencias sociales del uso del test. Es decir, la persona que construye el test
debe revisar si el test tiene las consecuencias adecuadas en los sujetos, instituciones u
organizaciones, con objeto de evitar consecuencias adversas y evitar que haya sujetos
desfavorecidos de forma sistemática con la aplicación del test.
Se deben evitar los sesgos culturales: sexo, raza, etc.
En la actualidad sigue abierto el debate sobre si la evaluación de las consecuencias sociales del uso
de los tests debe formar parte de la validación de un test (Padilla, Gómez, Hidalgo y Muñiz, 2006;
Prieto y Delgado, 2010).
Diversos autores (Guión,1978,1980; Tenopyr,1977; Messick, 1995). han intentado unificar las
distintas acepciones de validez en un único tipo de validez.
Reconociendo la importancia de los argumentos esgrimidos por los autores citados, en su insistencia
en la validez de constructo como criterio unificador, mantenemos, por razones prácticas, las dos
grandes áreas que se pueden extraer de las sugerencias de la APA (1974), en cuanto que un test
puede considerarse válido por su significación (validez de constructo y validez de contenido) o por
su utilidad (validez referida a un criterio) (Mateo, 1993). Por tanto, el término validez tiene tres
significados principales: validez de constructo, validez de criterio y validez de contenido. Los tres
términos tienen muchos aspectos en común aunque hay importantes diferencias entre ellos
(Nunnally & Bernstein, 1995).
Un test siempre va a ser mas o menos valido en funcion del uso proposito o fin que tiene el [Link]
el concepto general de validez debemos destacar:
-relevancia. Proposito o fin por el que se va a aplicar.
Utilidad: uso del test en una situacion dada.
Cuando se analiza la validez hay que ver las consecuencias sociales , hay que procurar que el test no
favorezca a ninguna institucion o sexo o genero o [Link]. Es decir que nos e sesguen las
puntuaciones
la validez es un proceso continuo,nunca [Link] un test en una situacion en una
poblacion pero no significa que acabe ahi.
Tipos de validez distintos autores lo intentan organizar, generalmente todos los tipos de validez
contribuyen a la validez de constructo de la prueba.
Podemos distinguir entre validez aparente y comprobada. La comprobada a su vez puede ser de
criterio o teorica, como en el esquema.
Validez de constructo es la validez de la prueba y todos los tipos de validez que se hayan hecho para
la prueba.
Validez de contenido o muestral:
Expresa el grado en el que una medida empírica (conjunto de ítems de un test) es representativa de
un dominio específico de contenido. Es decir, validez de contenido es el grado en que la muestra de
ítems que forman un test representa una muestra adecuada del dominio de objetivos o conductas de
interés.
En la validez de contenido hay dos aspectos según Messick (1975). Los ítems deben ser relevantes
para el uso que se va a dar a las puntuaciones del test y representativos del dominio de ítems de
interés.
Ejemplo: Test de ortografía de sustantivos. Objetivo: Evaluar nivel de ortografía de los sujetos
después de un curso. Requiere una muestra relevante y representativa del material con el que se va a
evaluar a los sujetos.
tiene que ver con el contenido de los items del test. El grado en que la medida empirica (test)
representa un dominio especifico de [Link] el grado de representatividad de la muestra de
items del dominio de items.
Para que un test tenga validez de contenido debe ser relevante y representativo.
La relevancia tiene que ver con que el test no debe tener contenido irrelevante para lo que va a
medir el test y representativo para el dominio de items ( no debe haber factores o dimensiones del
constructo que el test no represente) x.e. si hago un examen de 8 temas y solo pregunto 2 no es
representativo del dominio de contenido.
La validez de contenido es la que mas tiene que ver con el contenido psicologico de la prueba o test.
Si los items son una muestra representativa se pueden usar procedimientos de la teoria de la
generalizabilidad ( ver el grado en que un item se puede generalizarlas puntuaciones obtenidas en el
item al universo de items correspondientes).
Un item puede ser representativo pero no relevante y [Link] validez de contenido es muy
importante en todo tipo de test y sobre todo de los test referido al criterio.
Martínez Arias, (1995, pp. 337-340) describe las etapas y algunos procedimientos a seguir para
llevar a cabo el análisis de la validez de contenido. Uno de estos procedimientos consiste en
analizar el grado de acuerdo del emparejamiento ítems- objetivos entre ‘jueces expertos en el
contenido’. Los jueces emiten juicios sobre el grado en que ítems-objetivos definidos en la tabla de
Especificaciones están emparejados. Posteriormente, esta información se resume mediante algunos
índices (Indice de Congruencia de Rovinelli & Hambleton, 1977; etc.)
La representatividad de los items con relación al dominio de contenido se puede analizar con la
Teoría de la Generalizabilidad.
Validez aparente
Un test tiene validez aparente si mide lo que parece medir. Este tipo de validez suele venir dada por
los sujetos que responden al test.
“No hay una relación lógica entre ‘validez aparente’ y ‘validez real’. Aunque en algunas situaciones
puede haber una relación positiva entre ambas, en otras situaciones - por ejemplo, en selección - la
validez aparente puede ser una desventaja” (Cattell y Warbuton, 1967).
la analizan los sujetos que responden al test. Un test tiene validez aparente si mide lo que parece
medir. A veces no tiene porque haber relacion entre validez real (lo que mide el test realmente) y la
validez aparente (lo que parece que van a medir). Por ejemplo en una selección de personal no
interesa que el sujeto sepa lo que estamos midiendo.
La validez de criterio.
Es la capacidad del test para predecir un criterio relevante. Es decir, el grado en el que el test es útil
para predecir un objetivo determinado viene dado por su relación con un criterio externo al test.
-La limitación más importante es que en muchas de las medidas de las ciencias sociales no existen o
es difícil definir variables criterio relevantes. Cuanto más abstracto es un concepto, más difícil es
encontrar un criterio adecuado y dar una medida de él. De hecho, se conoce como ‘el problema del
criterio’ decidir qué medir como criterio(s).
Tiene que ver con la utilidad del test, si el test es util para el objetivo que estabamos [Link]
saber si el test es util con respecto a lo que se quiere [Link] variable criterio va a ser algo externo
al test, es decir algo que me sirva a mi para probar que el test es util para medir eso.
La variable criterio debe estar muy bien medida, mejor que el test que estoy validando y debe ser
algo relacionado con el uso que le voy a dar al test, por ejemplo el test wais y la inteligencia seria
una variable criterio.
No hay un único coeficiente de validez de criterio, hay tantos como criterios se puedan definir para
una medida particular.
La elección del procedimiento estadístico para analizar la validez de criterio depende de: el número
de predictores (un predictor, múltiples predictores), el número de criterios (un solo criterio, criterios
múltiples o criterio compuesto) y el nivel de medida de las puntuaciones del test y del criterio.
Si hay un solo criterio, el grado de validez de criterio se expresa mediante un coeficiente que indica
el grado de asociación que existe entre el test (predictor) y el criterio. Este índice se obtiene
mediante el coeficiente de correlación de Pearson si test y criterio son variables continuas y la
relación es lineal. El test será útil si hay una correlación alta entre test y criterio.
Los 3 tipos de validez de criterio se diferencian a cuando se pasa el criterio con respecto al test.
Validez de criterio concurrente. Es el grado de relación entre el test y el criterio, siendo éstos
medidos al mismo tiempo.
En la práctica, índices > o = 0,75 pueden considerarse altos índices de validez
concurrente si se considera un test criterio ‘con garantías suficientes’.
El nuevo test, debe tener algunas ventajas comparado con el test criterio.
Ejemplo. Test de diagnóstico de un trastorno. Criterio los grupos Casos/No casos diagnosticados
con una entrevista clínica
Si criterio y test se pasan al mismo tiempo es concurrente. Por ejemplo un paciente al diagnosticarlo
en una entrevista con depresion le pasamos un test para confirmar que tenga depresion. Se hace en
el momento, no puedo comparar ese test con un diagnostico en el pasado o que vaya a hacer en el
futuro.
Validez de criterio predictiva. Concierne con la relación entre las puntuaciones de un test y un
criterio medido posteriormente.
Ejemplos
-Un test de inteligencia (Stanford-Binet) se administra a una muestra de niños de 5 años y sus
controles. En el futuro, se mide éxito académico (libros y artículos publicados, compañías dirigidas,
patentes que han generado y salarios, etc.) La relación entre las puntuaciones del test y las de estas
variables pueden dar evidencia de la validez predictiva del test, excepto cuando esta relación se
pueda explicar por otras causas.
-Test de inteligencia. Criterio de ‘Rendimiento académico’
Si el criterio lo mide despues del test es predictiva. Por ejemplo si hago un test de inteligencia a
principio del grado de psicologia y me puede pronosticar la nota media de los estudiantes al acabar
el grado.
-Un test de inteligencia puede ser un buen predictor de la nota media de la diplomatura (grado)
-Un test de inteligencia puede ser un mal predictor para la moralidad
-Test(s) de selección para un puesto de trabajo. Criterio(s) de ‘éxito en el trabajo’, ‘tasas de
absentismo laboral’, etc.
Validez de criterio retrospectiva. Es el grado de relación entre las puntuaciones de un test aplicado
en un momento dado y un criterio medido con anterioridad.
si el criterio lo mido antes del test es retrospectiva. Por ejemplo miramos si los adolescentes han
sufrido violencia de pequeños y de mayor le pasamos un test para ver si han tenido una infancia
hostil o no. si es hostil y la persona ha tenido violencia de joven, significa que el test mide bien.
Dependiendo del nivel de medida de las variables se pueden obtener los siguientes coeficientes de
correlación:
Suj es el grupo normativo donde estamos pasando el test. El test es X e Y es el criterio.
Si es dicotomica se organizan los datos en una tabla de 2 x [Link] las frecuencias los totales.
P(x=1.y=1) proporcion de sujetos que tienen x=1 e Y=1.
Validez de constructo
(que no es la validez factorial). Esta comprendida por todas las validez que tenemos. Todas las
validez convergen en ella. La validez de constructo es el grado de interrelaciones del test o
puntuaciones del test y otros test o constructos con los que se tiene que relacionar y con los test o
constructos que tiene que diferenciarse.
Cronbach y Meehl (1955) introducen el concepto de validez de constructo. Para estos autores, un
test se crea para medir un constructo. Para medir el constructo se especifica la teoría acerca de este
constructo y lo que se espera acerca de la relación entre
a) este constructo y otros constructos,
b) este constructo y otras medidas (es decir, tests), y
c) el test que se va a validar y otras medidas.
Estos autores denominan a estas relaciones red nomológica. La validez se prueba si se puede
demostrar que los resultados obtenidos con el test se ajustan al constructo.
No se puede identificar las puntuaciones del test con el constructo. Cuando se establece la validez
de constructo, se pueden interpretar las puntuaciones obtenidas con el test. La validación de
constructo es la acumulación de evidencias que apoyan que la puntuación del test es una de sus
manifestaciones (Messick,1989)
Validez de constructo es el grado en el que una medida particular se relaciona con otras medidas -
consistentes con hipótesis derivadas de la teoría - de los conceptos o constructos que se van a medir.
La validez de constructo requiere el uso de una teoría sustantiva para definir el constructo que se va
a medir y de la teoría de la medida para proporcionar una medida del mismo (Nunnally &
Bernstein, 1995).
Este tipo de validez no se puede expresar mediante un único coeficiente, sino que el estudio de la
misma es un proceso continuo que requiere muchos tipos y fuentes de evidencia. Para mostrar
evidencias de validez de constructo, se plantea un conjunto de hipótesis/relaciones - derivadas de
las características psicológicas que mide el test -se presentan los resultados obtenidos a partir del
test acerca de este modelo de relaciones. Posteriormente, se decide, de forma subjetiva, si estos
resultados se ajustan o no al constructo.
Que procedimientos debemos tener en cuenta en el estudio de la validez de constructo? PUES estos:
-desde el pto de vista teorico (de esta parte se encargan los teoricos de contenido)
-interpretación teórica del constructo
-analisis de relaciones con otros test relacionados y hacer un analisis de lo que se relaciona
con los otros test y diferenciarlo de lo que se tiene que diferenciar. (análisis de las interrelaciones en
el constructo y otros constructos o vv.
-diferenciar el constructo de otras interpretaciones (constructos o variables.
-Validez estructural (de rasgo, estructura interna del constructo, validez factorial)
-Validez nomológica: Grado en que una medida se relaciona/diferencia de un conjunto de
constructos teóricos y sus respectivas medidas.
-Validez convergente y divergente (discriminante). Procedimientos basados en las matrices
MultiRasgo-MultiMétodo (MRMM) para obtener relaciones con otras medidas del constructo.
-Plantear nuevas investigaciones a partir de los resultados derivados de las hipótesis
-El análisis del sesgo o funcionamiento diferencial de los items o tests. El sesgo se considera como
varianza irrelevante para el constructo. El estudio del sesgo permite analizar si el test favorece
sistemáticamente a unos grupos de sujetos frente a otros.
-Determinar el grado de generalizabilidad de las puntuaciones obtenidas con el test
Diferenciar grupos (validez diferencial)
-Validez instruccional, curricular, incremental, etc.
Validez estructural=de rasgo=estructura interna…. Analiza si los items miden lo que deben medir
Nomologica- se refiere a todas aquellas hipotesis acerca de relaciones del constructo del test con
otros test y con los que se diferencia.
Una vez validado el test se plantean otras hipotesis de trabajo para seguir validando.
Sesgo diferencial- para ver si los items favorecen a unos grupos u otros (x.e. los test de inteligencia
antes favorecian a los blancos xk los blancos salian mas listos)
-grado de generacibilidad al posible universo de items que representan al constructo.
-validez diferencial: que los items diferencien en grupos. (x.e. si creamos un test para diferenciar
entre pacientes de una clínica y pacientes en un ambito de psicologia social, y dependiendo de la
puntuacion que saquen los pacientes saber si son de clinica o social).(tambien la incluye la validez
nomologica).
Ejemplo
25 items de afecto ¿forman una escala o varias escalas de diferentes estados de afecto como
depresión, euforia, hostilidad, ansiedad, etc.? ¿Deberían estar en dos escalas diferentes items
positivos de afecto e items negativos de afecto (‘feliz’ versus ‘triste’ para depresión, ‘tenso’ versus
‘calma’ para ansiedad) La pregunta es
¿Subyace una o mas variables latentes a un conjunto de items de varios estados de afecto?
El estudio de la estructura interna del constructo consiste en encontrar las dimensiones que
subyacen a un conjunto de items. Se suele utilizar una técnica de Análisis Multivariante. La más
frecuentemente utilizada es el Análisis Factorial (AF).
Spearman (1904) fue el primero que aplicó esta técnica en el análisis de habilidades humanas e
inteligencia. Desde entonces, el AF es una técnica ampliamente utilizada en Psicometría.
Trata de encontrar las dimensiones o factores que subyacen a un conjunto de variables o ítems.
Puede ser exploratorio o confirmatorio. Se va a exponer los conceptos básicos del análisis factorial
exploratorio.
-Obtención de factores de primer orden. Una vez que una prueba con 5 (n) items se administra a una
muestra de N sujetos se obtiene la siguiente matriz de respuestas.
-Las relaciones entre todos los pares de items se organiza en la matriz decorrelación
-Factores de primer orden. A partir de la matriz de correlaciones entre pares de ítems se obtienen los
factores de primer orden.
Muestra la importancia de una variable o ítem en la definición de un factor (Suelen tomarse valores
mayores que 0,3)
Si se factorizan las puntuaciones en las escalas de los factores de segundo orden, se obtienen los
factores de tercer orden. Un ejemplo es el factor g de inteligencia.
Una vez tenemos las puntuaciones hacemos la matriz de todas las respuestas para relacionar o
diferenciar los items (correlacionando el item 1 con el 1, el 1 con el 2...asi sucesivamente). Si hay
items medidos en la misma escala (uso correlaciones) si los items no son de la misma escala (uso
covarianzas). Se usa una matriz triangular porque la correlacion del item 1 con el item 2 es la
misma que la del item 2 con el item 1, por eso no se pone nada debajo.
EJEMPLO: (29)
Que valor deben tener en la saturacion para decir que define bien. Deben ser mayor a 0.30
el item 5 satura menos de 0,3. puede ser que tenga poca saturacion porque tiene poca varianza
compartida con los otros items .si ese item tiene poco que explicar, es normal que pese poco a la
hora de explicar el [Link], ESO ES EN ESTE GRUPO, PORQUE ESTE ANALISIS ES
EXPLORATORIO, EN OTRO GRUPO SERIA DIFERENTE.
Por ejemplo Hay 10 factores donde cada item define un factor y la varianza de cada item es 1 y el
total es 10, 10 es el 100 por cien de la varianza, si ahora nos quedamos con un solo
factor,despreciamos el resto de varianza y nos queda una varianza menor que 100. en este caso nos
queda 35.8. El primero en este caso me explica el 35.8 por ciento de la variabilidad total. El analisis
factorial reparte la variabilidad total en los diferentes items. A mas analisis factorial hagamos menos
varianza cada vez explica cada item. ES DECIR LA VARIANZA ENTRE PERSONAS SE HA
MEDIDO CON UN SOLO FACTOR (AUTOESTIMA), EL RESTO DE COSAS QUE NOS
DIFERENCIAN SON LOS OTROS 9 FACTORES O 10 O 100 O LOS QUE SEAN.
En la clinica aumenta la comunalidad y demas porque la varianza entre personas enfermas esta mas
explicada por algo tan psicologico como la autoestima, es obvio que alguien con depresion se
diferencia mas de una persona con ansiedad en autoestima que dos personas con normalidad en
salud mental.
Si mido rasgos diferentes con igual metodo debe haber divergencia, simido igual rasgos con
distinto metodo debe haber [Link].
Ejemplo: tengo 3 rasgos abc medidos con el metodo 1 y abc medidos con el metodo 2.
en la primera columnita si mido a1 con a1 es fiabiidad porque es el mismo metodo con el mismo
[Link] mayor con mas fiabilidad es el rasgos A en el metodo 1.
( ) Coeficientes de fiabilidad
Coeficientes para diferentes rasgos medidos con el mismo método Coeficientes para diferentes
rasgos medidos con distintos métodos
Coeficientes para el mismo rasgo evaluado con diferentes métodos
En (1) y (3) los elementos diagonales son Fiabilidad
En (1) y (3) los elementos no diagonales son correlaciones entre distintos rasgos y el mismo
método (Validez Divergente)
En (2) los elementos diagonales son correlaciones de cada rasgo con diferentes métodos (Validez
Convergente)
En (2) los elementos no diagonales son correlaciones entre diferentes rasgos usando diferentes
métodos (Validez Divergente)
En Validez de criterio:
En psicología clínica se suele usar como criterio la entrevista.
cuando queremos analizar la validez de criterio la X es puntuacion del test y la Y puntuacion
del criterio.
Los tests que vamos a ver hoy se utilizan con vv dicotomicas y si no son vv dicotomicas hay
que dicotomizarlas.
Y>o = Yc
con trastorno FN VP
Yc
Y<Yc VN FP
no trastorno
eje X
X<Xc Xc X> o = Xc
punto de corte en predictor Xc=
punto de corte en criterio Yc=
Verdaderos positivos= tiene el trastorno por criterio y el test tambien lo dice (esta bien
clasificado)
verdadero negativo=porque no tiene el trastorno y el test lo dice tambien (esta bien
clasificado)
falso positivo=el test dice que hay trastorno pero según el criterio no hay y se supone que el
criterio siempre mide mejor por lo que el test es lo que se equivoca.
falso negativo=segun el criterio tiene trastorno pero según el test no porque en el test está en
X<Xc.
errores asociados a la sensibilidad de los verdaderos positivos son los falsos negativos.
Proporcion Falsos negativos= de los que dice el criterio que tienen trastorno, los que estan
mal clasificados con el test. Pues será c/a+c
sensibilidad más proporcion de falsos negativos me tiene que dar 1, puesto que son
complementarios.
Especificidad + fp =1
Los puntos de corte lo puede establecer alguien o se puede establecer de forma psicometrica.
Por ejemplo el indice de youden.
Youden= maximo punto de corte sobre el test en (sensibilidad + especificidad -1)
para hacer esto tenemos que hacer sensibilidad y especificidad con todos los diferentes puntos de
corte (todos los valores del test) y de todos los valores que obtengamos del calculo (sensibilidad +
especificidad -1) cogemos el mayor y sera el mejor punto de corte en el test.
Jouden es el mayor punto de corte en el test óptimo para clasificar a los sujetos.
Si sensibilidad y especificidad valen 0, j nos da -1 y esto es lo peor que nos puede pasar ya que
significa que el test y criterio discrepan por completo.
curva ro. Mejor punto de corte que representa la sensibilidad y 1- la especificidad.
Eficiencia diagnostica: proporcion de sujetos bien clasificados con o sin trastorno en test y criterio.
Es decir a+b /n. los indices que no tienen error partido el numero total de sujetos.
Estos indices se usan para valorar la adecuacion de los puntos de corte en un test para un criterio.
En selección de personal se usan otros indices.
Tasa base= lo analogo a prevalencia en clinica. Proporcion de sujetos con alto rendimiento según el
criterio.
Razon de selección: proporcion de sujetos admitidos con el test del total de aspirantes
razo de eficacia: del total de sujetos admitidos con el test los que tienen alto rendimiento en el
trabajo.
Interpretacion:
selección: de el total de personas con trastorno,174 dan con trastorno en el test. De 100 personas
con trastorno, el test da como positivo en trastorno el 48.60%
especificidad:de los que el criterio dice que no tienen patologia el total 41, de los que el test dice
que efectivamente no hay patologia (23).
56.09 es el porcentaje de personas que DEL TOTAL DE PERSONAS sin patologia dan negativo en
el test.
1-05609 es proporcion de falsos positivos= 0,4391 o en porcentaje 43.9%. de cada 100 sujetos sin
trastorno según criterio, 43 dan positivo en el test.
Este test es un poco caca por lo que habria que revisar el punto de corte Xc.
ED= de cada 100 personas,49 personas estan bien clasificadas por el test según el criterio.
aunque hay otra forma de aplicar phi sin necesidad de ordenar la tabla:
EJERCICIO.
Tenemos que dicotomizar la tabla para poder hacer phi. Y como hay muchas puntuaciones
pues vamos a tomar como punto de corte Xc el 8. entonces de 8 pa arriba es apto y de 8 pa
abajo es no apto.