0% encontró este documento útil (0 votos)
38 vistas40 páginas

Apuntes Medición

La validez es uno de los conceptos más importantes en la teoría psicométrica. Anteriormente se definía como una propiedad de los tests, pero ahora se considera como un proceso de acumulación de evidencia para sustentar las inferencias realizadas a partir de los resultados de una prueba. Existen diferentes tipos de validez como la de contenido, criterio y constructo. Actualmente se enfatiza la validez de constructo, la cual requiere evidencia convergente y discriminante, así como considerar las consecuencias sociales de la interpretación de los resultados.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
38 vistas40 páginas

Apuntes Medición

La validez es uno de los conceptos más importantes en la teoría psicométrica. Anteriormente se definía como una propiedad de los tests, pero ahora se considera como un proceso de acumulación de evidencia para sustentar las inferencias realizadas a partir de los resultados de una prueba. Existen diferentes tipos de validez como la de contenido, criterio y constructo. Actualmente se enfatiza la validez de constructo, la cual requiere evidencia convergente y discriminante, así como considerar las consecuencias sociales de la interpretación de los resultados.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tema 5: VALIDEZ (I)

1. Concepción tripartita de la validez


La validez es uno de los conceptos más importantes en la teoría psicométrica.

Antes de 1950, se definía la validez como una propiedad de los test o instrumentos de
medida; más formalmente, la validez era considerada «el grado en que el test mide lo
que se propone medir» (Garrett, 1947).

A mediados del siglo XX se diferenciaban tres tipos de validez: validez de criterio,


contenido y constructo.
➢ Validez de criterio: de una forma operacional como la correlación entre la
puntuación en el test (predictor) y el comportamiento que pretende predecir
(criterio), o con otras medidas que se ha probado que miden el constructo
objetivo (criterio).
La correlación entre las puntuaciones observadas y las verdaderas.

➢ Validez de concurrente: es una correlación del test con un criterio, pero se


diferencia de la validez predictiva porque test y criterio se deben aplicar de
forma simultánea, mientras que en la predictiva el test es el predictor de un
criterio futuro.

➢ Validez aparente: se refiere a la apariencia de validez que presenta el test, es


decir, al grado en el que la prueba parece relacionada con el tema que se mide
y en que es aceptable para los sujetos que toman el test. Sin embargo, este
tipo de validez no constituye un tema que realmente interese a la psicometría,
sino más bien se trata de una cuestión de simple apariencia del test.

➢ Validez de contenido: los autores la han definido como el grado en que el test
representa el dominio del constructo que se pretende medir; en este sentido,
se espera que la prueba corresponda con los objetivos y contenidos para los
que fue diseñada (Matriz o Tabla de Especificaciones).
2

- Historia del concepto de validez

Año Concepto de validez Autores

30 Enfoque empirista. Correlación de un instrumento con pruebas paralelas. Guilford (1946)

50 - Enfoque conductual (V. criterio). Tiene su base en la psicología conductual, Cronbach y Meehl
dado su énfasis en la capacidad de predecir un criterio que en últimas es (1955)
directamente observable en la conducta explícita. La validez concurrente
tiene el mismo origen conductual, pues es la correlación entre el test y una
medida de criterio actual, simultánea pero igualmente observable.

- Enfoque operacionalista (V. contenido). No interesa predecir variables


diferentes a las que mide el test, sino determinar si la puntuación obtenida
con el test constituye un buen indicador del dominio de contenido o de
conducta que se desea evaluar.

-Cimientos de la validez de constructo. La estadística se empieza a utilizar


no solo para el análisis de datos, sino para evaluar y analizar los ítems en la
medición. Esto repercute en un nuevo concepto de validez basada en el
análisis factorial y que sería la base de lo que después se denominó validez
de constructo. Autores como Cronbach (1949) y Guilford (1946), en
Santisteban y Alvarado (2003), introducen la idea de factores que explican
con mayor o menor peso los contenidos que pretende medir el test. En el
(APA) de 1954 se introduce la validez de constructo como nueva categoría
de validez, entonces se proponen cuatro tipos de validez: la concurrente, la
predictiva, la de contenido y la de constructo. También se dan otros cambios
interesantes a partir de dicho documento, por ejemplo, se exige especificar al
constructor de la prueba su utilidad; esto para que el usuario tenga también
una responsabilidad sobre la validación del test.

60 Se aportó una especificación en la validez de constructo según la cual la Campbell y Fiske


medida de un constructo se ha de relacionar con medidas del mismo (1959)
constructo (validez convergente) y ha de diferenciarse de medidas de otros
constructos (validez discriminante); se proponen métodos para evaluar el
grado de validez convergente y discriminante de las pruebas, como las
matrices multimétodo multirrasgo

70/80 - Enfoque representacional. Tiene que ver con los constructos teóricos que
explicarían las respuestas a las tareas implícitas en los ítems. Este enfoque se
relaciona con el cambio de paradigma de la psicología del estructuralismo al
funcionalismo, puesto que la validez de constructo ya no se vislumbra dentro
del paradigma causa-efecto (unitario), sino a una serie de procesos y
estrategias de procesamiento de la información. Como consecuencia, la
representación de un constructo tiene más que ver con la variabilidad de las
3

tareas que con la variabilidad de los sujetos. Es importante que el ítem refleje
las propiedades teóricas deseadas en el instrumento.

-Enfoque de red nomológica:El énfasis se pone en que los factores se


conforman por las correlaciones entre las diferencias de los sujetos, más que
en las diferencias en la tarea o en la especificación que tiene cada ítem sobre
el constructo

Las normas de la APA de 1985 permanecen actualmente y ratifican la validez como un


concepto unitario referido a la acumulación de evidencia empírica sobre la utilidad y
significación de inferencias o predicciones realizadas a partir de las puntuaciones de las
pruebas. Se pasa entonces de un concepto particionado (en tres partes) a un concepto unitario
en el que la validez ya no se considera como una propiedad de las pruebas, sino que es un
estudio de diferentes evidencias que apoyan el uso de la prueba.

2. Validez de constructo
La validez de constructo, ya que esta no puede ser expresada en un solo coeficiente
siendo un proceso, no un procedimiento, y requiriendo varias líneas de acumulación
de evidencia.

Messick (1980): «Validez de constructo es el concepto unitario de validez que integra


consideraciones de criterio y de contenido en una base común para probar hipótesis
racionales sobre relaciones relevantes teóricamente»

1985 (APA, AERA, NCME):«La validez es la consideración más importante en la


evaluación de la medición. El concepto se refiere a la adecuación, significado y uso
de las inferencias específicas que se realizan sobre las puntuaciones de los test».

Los métodos estadísticos asociados a cada tipo de validez se consideran ahora


estrategias para acumular evidencia que apoye (o no) las inferencias que se realizan
mediante las puntuaciones del test

Grandes cambios:
● La articulación de los tres tipos de validez en torno a la validez de constructo.
● La consideración de que no se valida el test o instrumento de medida sino las
inferencias que se realizan sobre las puntuaciones.
● La consideración de la importancia de iniciar el proceso de validación desde
el mismo diseño del test (no al final, como anteriormente se realizaba) y en la
4

responsabilidad creciente del usuario de las pruebas que es el que realiza las
inferencias e interpreta los resultados de la medición.

Según Messik (1995), la validez del constructo engloba:


● Un aspecto de contenido (representatividad del dominio).
● Un aspecto sustantivo que conlleva el modelamiento de tareas o procesos
teóricos engarzados con los ítems realizados (teoría representacional).
● Un aspecto fundamental que evalúa que la estructura de las puntuaciones
refleje fielmente la estructura del constructo (escalamiento).
● Un aspecto de generalización que consiste en examinar la extensión a grupos,
situaciones y sujetos.
● Un aspecto externo que incluye evidencias convergentes y discriminantes.
● Un aspecto de consecuencias que en las acciones concretas pueden producir
los resultados en las puntuaciones de un test (sesgos).

3. La validez y sus consecuencias sociales

El concepto de validez unificada supone también que se deben evaluar las consecuencias de
lo que pretende el usuario al interpretar las puntuaciones de una prueba, tanto a corto como a
largo plazo.

La subrepresentatividad del constructo es definida por Messick (1995) como los «fallos en la
inclusión de dimensiones o facetas importantes del constructo», mientras que la varianza
irrelevante suele ser causada porque «la medición contiene exceso de varianza asociada a
otros constructos».
Messick (1995) también distingue dos tipos de varianza irrelevante del constructo: la
dificultad de la irrelevancia del constructo que consiste en que los aspectos de la tarea son
extraños y difíciles para algunas personas o grupos específicos. La facilidad en la
irrelevancia del constructo se da cuando los formatos permiten a algunos individuos
responder adecuadamente a la tarea, dada la familiaridad que puedan tener con esta.

Messick (1995) propone una matriz, desde la perspectiva unificadora de la validez, en la que
la validez de constructo se define en la acumulación de evidencia empírica que sustenta la
interpretación de las pruebas. La acumulación de evidencia empírica en este sentido sirve
para constatar la relevancia y utilidad de la prueba. Por esto, para evaluar las consecuencias
sociales de una prueba se deben tener en cuenta todos los factores mencionados
anteriormente: la validez de constructo, la relevancia y la utilidad de la prueba; esto es lo que
5

finalmente le da el valor funcional a un test al rescatar el valor social de la validez y, por


tanto, la ética de la evaluación.

Además se debe asegurar de que no se genere ninguna consecuencia negativa en los sujetos
que sea debida a alguna fuente de invalidez

La concepción actual de validez conduce a reflexionar sobre la importancia de la


contextualización, tanto temporal como cultural, de la medición. Es importante que las
personas que pretendan realizar medición en las diversas áreas del comportamiento tengan
presente la validez como un ejercicio continuo que los conduce a observar el
comportamiento y el cambio en un constructo y no solo como la recolección de evidencias
cuantitativas.

Surge también la necesidad de que la preocupación por la acumulación de evidencia de la


validez esté presente desde el principio de la construcción de una prueba y no al final, como
comúnmente se viene realizando.

Navas (1998) afirma que el objetivo básico, cuando se estudian las consecuencias de los usos
de las pruebas, es evaluar si el objetivo propuesto con la evaluación es adecuado y también
la posible ocurrencia de efectos no previstos o irrelevantes.

4. Generalización y validez

La generalización tiene que ver con el hecho de que las interpretaciones de las puntuaciones
se pueden llegar a ver limitadas por el muestreo de tareas que implica la medición, es decir,
que este muestreo no garantice que sea generalizable a todo el dominio del constructo.

Generalizar los resultados de una medición la teoría que subyace al constructo debe ser muy
estructurada y sólida.
6

La generalizabilidad a la población, es decir, tiene que ver con la pregunta ¿es generalizable
una prueba cuando la evidencia para su validación se ha obtenido con una muestra específica
de sujetos con unas características culturales y contextuales particulares.

5. Validez y diseño del test


Los principios de la teoría psicométrico-cognitiva deben emplearse también en el diseño de
tareas e ítems que midan aspectos específicos de las diferencias individuales. Se han
presentado dos aproximaciones conceptuales para el diseño de evaluaciones en este contexto,
ambas basadas en una perspectiva centrada en la validez de constructo.
- Embretson (1998) incluye relaciones entre el diseño de los test y la validez de
constructo. La validación de constructo tienen poco impacto en el diseño de los test,
ya que, por lo general, se emplean con pruebas ya construidas y aplicadas,
estudiándose los datos resultantes con técnicas como el análisis factorial o mediante
correlaciones con otras medidas. La autora propone un sistema de diseño cognitivo
que incluye un marco conceptual y procedimental de interacción entre el diseño de
test y la validez. El marco conceptual distingue dos aspectos de la validez de
constructo:
➢ La representación de constructo: se refiere al significado de las puntuaciones
de los test y se elabora mediante el entendimiento de los procesos y
estrategias empleados por los examinados al resolver los ítems. Para ello
utilizan métodos de la psicología cognitiva actual, como el modelamiento
matemático del ítem y el estudio de las latencias o tiempos de respuesta.
➢ Las redes nomológicas se ocupan de la utilidad del test para medir diferencias
individuales. . Se estudia mediante la correlación de las puntuaciones del test
con otras medidas.
El marco procedimental propuesto por Embretson:
➢ Identificar las metas de la medición
➢ Identificar características del diseño en el dominio de interés.
➢ Desarrollar un modelo cognitivo (revisión y selección de la teoría, desarrollo
del modelo).
➢ Evaluar el potencial psicométrico del modelo y probarlo (ajuste al modelo
matemático).
➢ Especificar la distribución de los ítems en su complejidad cognitiva.
➢ Generar ítems que cumplan la especificación anterior.
➢ Evaluar las propiedades psicométricas y cognitivas del dominio del test.
➢ Ensamblar formas del test.
7

➢ Formular hipótesis para contrastar la validez del proceso de medida.


- Mislevy, Steinberg y Almond (2003): busca establecer que la validez implica la
elaboración de un argumento de evidencia lo más completo posible sobre las
competencias del sujeto examinado. Esta aproximación ha sido llamada diseño
centrado en la evidencia (DCE) y por medio de ella se vincula el aparato matemático
de la psicometría con la construcción de ítems y el significado de las puntuaciones

Siguiendo este enfoque, en cualquier proceso de medida se utilizan cuatro modelos


➢ El modelo de competencia en el que se especifican y definen las
competencias, habilidades y conocimientos que serán evaluados.
➢ El modelo de evidencia en el que se describe cómo actualizar las creencias
sobre la ejecución de un examinado, con base en la observación de los
resultados
➢ El modelo de tarea en el que se estructura la situación de medición para
obtener los tipos de observaciones que se quiere obtener.
➢ El modelo de ensamblaje en el que se define el conjunto de tareas que
comprenderá la medición.
6. Procedimientos de acumulación de evidencia referida al contenido

6.1. Índice de similitud


Es un índice propuesto por Cronbach (1971) que consiste en que se construyen dos test
paralelos, con la misma definición de contenido, reglas de muestreo y criterios de
interpretación de datos. Una vez desarrollados los dos test, se aplican al mismo conjunto de
sujetos y se calcula la media de las diferencias al cuadrado de las puntuaciones de cada
examinado en los dos test.

El IS debe ser un valor menor a 1. Cuanto más se aproxime este índice a 1, más similares
serán los datos, evidenciando mayor validez.
8

6.2. Índice de congruencia de ítem-objeto


Evaluar el grado de congruencia de un ítem con un objetivo. Se parte del supuesto de que
idealmente un ítem se emparejará a un solo objetivo del conjunto. Se pide a los jueces que
emparejen cada ítem con cada uno de los objetivos y le asignen un valor de 1 si consideran
que mide el objetivo, de 0 si no están seguros y de ‒ 1 si no mide el objetivo.

El valor más alto posible de este índice es 1 y se alcanza solo si el ítem 1 es emparejado a un
único objetivo por todos los jueces
9

6.3. Evidencia curricular e instruccional.


La validez curricular se refiere al grado en que los ítems son relevantes para los objetivos de
un currículo y la validez instruccional indica el grado en que los profesores han enseñado los
contenidos y destrezas que miden los ítems del test.

Tema 6: Validez (II)

1. Procedimientos de acumulación de evidencia referida al constructo

La Validez de Constructo (VC) consiste en acumular evidencias que apoyan que las
inferencias que se realizan a partir de las puntuaciones corresponden al constructo que se
pretende medir, en otras palabras, que las muestras de conducta que se observan en el test
son indicadores del constructo.

Para acopiar evidencia:


1) Formular hipótesis sobre las relaciones entre elementos componentes del constructo
y sobre las relaciones de éste con otros constructos teóricos.
2) Diseñar o seleccionar ítems que representan manifestaciones externas del constructo
o indicadores del mismo.
3) Poner a prueba las hipótesis mediante la recolección y análisis de datos empíricos.

2. Análisis factorial
10

El Análisis Factorial (AF) es una técnica estadística de reducción de datos usada para
explicar la variabilidad entre las variables observadas, en este caso los ítems, en términos de
un número menor de variables no observadas llamadas factores o constructos.

Fundamentalmente lo que se pretende con el Análisis Factorial es simplificar la información


que nos da una matriz de correlaciones para hacerla más fácilmente interpretable.

Se pretende encontrar una respuesta al preguntarnos ¿Por qué unas variables se relacionan
más entre sí y menos con otras?. Hipotéticamente es porque existen otras variables, otras
dimensiones o factores que explican por qué unos ítems se relacionan más con unos que con
otros (Validez de Constructo).

En definitiva, es un análisis de la estructura subyacente a una serie de variables.


Para que el AF tenga sentido deberían cumplirse dos condiciones básicas: parsimonia e
interpretabilidad. Según el principio de parsimonia, los fenómenos deben explicarse con el
menor número de elementos posibles. Por lo tanto, el número de factores debe ser lo más
reducido posible y estos deben ser susceptibles de interpretación sustantiva. La
interpretabilidad implica que la solución factorial debe ser sencilla e interpretable.

Para realizar un AF se deben desarrollar varios pasos:


● En primer lugar, se debe calcular la matriz de correlaciones entre todas las variables.
● En segundo lugar, se deben extraer los factores necesarios para representar los datos,
decidir cuántos factores se van a considerar y su composición.
● En tercer lugar, se suelen rotar los factores con el objetivo de facilitar su
interpretación, finalmente se calculan las puntuaciones factoriales de cada sujeto

Sean unos ítems de una escala de actitudes, donde la puntuación de cada sujeto encuestado
es la suma de las respuestas a todos los ítems, según la clave de corrección diseñada:

1) Me lo paso muy bien en mi casa, con mis padres (+)


Muy de acuerdo = 5
De acuerdo = 4
2) Algunas veces me gustaría marcharme de mi casa (‐)
Muy de acuerdo = 1
De acuerdo = 2
11

Existen dos tipos de análisis factorial:


● El análisis factorial exploratorio (AFE), que se utiliza para determinar la estructura
factorial de un número grande de variables observables o ítems cuando no existen
hipótesis a priori sobre el número de factores y las cargas de los ítems a los factores.
En el AFE las cargas de los ítems se utilizan para intuir la relación de estos con las
distintas variables.
● El análisis factorial confirmatorio (AFC), en el que existen hipótesis previas, dictadas
por la teoría subyacente, sobre el número de factores que se espera encontrar y la
composición de los mismos. En otras palabras, mediante este análisis se intenta
determinar si el número de factores obtenidos y sus cargas se corresponden con lo
que cabría esperar a la luz de la teoría.

2.1. Cálculo y exámen de la matriz de correlaciones.


El primer paso en el AF es calcular la matriz de correlaciones entre los ítems. Como los
ítems suelen ser de naturaleza dicotómica o politómica (escala), un primer problema a
resolver es el tipo de correlación más apropiado según la naturaleza de los datos. Cuando los
datos son dicotómicos, la matriz más apropiada es la de correlaciones tetracóricas, mientras
que cuando los ítems son de escala, es más apropiada la matriz de correlaciones policóricas.
Un error común en la práctica es emplear correlaciones inapropiadas sin tener en cuenta la
naturaleza de los datos

En la tabla 1 los valores de la diagonal inferior son los mismos que en la diagonal superior,
porque la correlación entre X1 y X2 es la misma que entre X2 y X1. Los valores diagonales
son 1 porque la correlación de una variable consigo misma siempre es perfecta.

Otro de los procedimientos para evaluar la adecuación de la realización del AF es el cálculo


del determinante de la matriz de correlaciones. Cuando el determinante es bajo, existen
correlaciones entre las variables aconsejando el uso del AF, sin embargo, el determinante no
debe ser 0, pues esto indica que la matriz no es singular y que las variables son linealmente
dependientes, siendo imposible ejecutar el AF.
12

Otro de los métodos para analizar si es adecuado llevar a cabo el AF es el test de esfericidad
de Barlett. Este test es útil cuando las muestras son pequeñas y mediante él se busca
comprobar si la matriz de correlaciones se ajusta a la matriz de identidad (I). Si esto ocurre
es porque hay ausencia de correlaciones significativas entre las variables, la hipótesis nula
es:

Si en este test se acepta la hipótesis nula (p > 0,05), significa que las variables no están
intercorrelacionadas y por tanto no tiene mucho sentido llevar a cabo el AF.

Otro índice muy conocido es el Kaiser-Meyer-Olkin (KMO), valores bajos de dicho índice
(por debajo de 0,6) desaconsejan la utilización de AF.

2.2. Extracción de factores


El procedimiento de extracción de factores permite generar otra matriz que reproduce la
matriz de correlaciones de forma más compacta y sencilla. La matriz resultante se llama
matriz factorial
13

Los elementos de la tabla se suelen denominar pesos, cargas o saturaciones factoriales, e


indican el peso de cada ítem en el factor. Idealmente cada ítem debe tener una carga alta en
un solo factor y baja en los demás. En la tabla 2 se observa que el test es «unidimensional»,
es decir, que todos los ítems cargan a un solo factor, este test mide un único constructo
teórico.

Existen distintos métodos de extracción de factores. Para un AFE los más comunes son el
análisis de componentes principales (ACP) y el método de ejes principales. En el ACP se
supone que los factores explican el comportamiento de los ítems en su totalidad, entonces,
las comunalidades iniciales de cada variable son iguales a 1, pues se asume que el 100% de
la variabilidad de los ítems está explicada por los factores. Si las correlaciones entre los
ítems son altas, se espera que unos pocos factores expresen gran parte de la variabilidad
total. La comunalidad final de cada ítem indica la proporción de variabilidad total que
explican los factores finalmente seleccionados.

Existen también diversos métodos de extracción de factores, entre los que se pueden contar:
el método de máxima verosimilitud (ML), el de mínimos cuadrados no ponderados (ULS), el
de mínimos cuadrados ponderados (WLS) y mínimos cuadrados generalizados (GLS).

El ACP es adecuado cuando el objetivo es resumir la varianza total de los ítems en una
cantidad mínima de factores.

2.3. Número de factores a conservar


Cuando el AF es exploratorio, un paso importante después de la extracción de factores es la
consideración del número de factores a retener, ya que la matriz factorial suele presentar un
número de factores superior al necesario para explicar la estructura de los datos y
generalmente son los primeros los que explican la mayor parte de la variabilidad total. En el
caso del AFC es necesario analizar la composición de los factores, es decir, estudiar qué
ítems componen cada factor y analizar su significado teórico.

2.4. Rotación de valores


Los ítems con cargas próximas a 1 están altamente correlacionados con el factor, mientras
que los que tienen cargas próximas a 0 no tienen relación con el factor o no lo están
midiendo de forma apropiada.
14

Los tipos de rotación más comunes son:


- La rotación ortogonal se utiliza cuando los factores son independientes. La más
utilizada es la varimax
- La rotación oblicua cuando existe evidencia que nos indique que pueden estar
correlacionados. La más utilizada es la oblimin.
15
16

3. Validez convergente- discriminante


Como se ha afirmado anteriormente, Campbell y Fiske (1959) introducen el concepto de
validez convergente-discriminante y presentan un procedimiento empírico para valorarlas
(matriz multimétodo-multirrasgo). La lógica de su propuesta es que cualquier medida de un
constructo debe mostrar relaciones fuertes con otras medidas del mismo constructo y
relaciones débiles con medidas de otros constructos. Empíricamente, se evalúa mediante
correlaciones de dos o más constructos medidos con dos o más métodos diferentes
organizados en la llamada matriz multimétodo-multirrasgo.
Las correlaciones entre diferentes métodos que miden el mismo constructo deben ser
considerablemente más altas (validez convergente) que las correlaciones entre diferentes
constructos medidos por el mismo método (validez discriminante). En la diagonal de la
matriz multimétodo-multirrasgo se presenta la fiabilidad del test (correlación del test consigo
mismo como forma paralela).
17

4. Varianza compartida

Cada ítem o variable tiene su varianza (diferencias en las respuestas), la varianza de cada
ítem puede ser compartida con la varianza de otros ítems: Algunos individuos encuestados
están muy bien en su casa con sus padres (ítem 1) y nunca piensan irse de su casa (ítem 2).
Otros individuos responderán con otras variaciones. En este caso, las respuestas señalada a
estos dos ítems son coherentes con el significado pretendido de los dos ítems, comparten
varianza porque los dos ítems están relacionados positivamente (estoy bien en casa, no me
quiero ir).
18

Esta relación viene expresada por el coeficiente de correlación r de Pearson, donde r2


expresa la proporción de varianza común o de variación conjunta. Si r=0.90 r 2 = 0.81, 81%
de varianza común.

5. Varianza unica
La Varianza única tiene que ver con la variabilidad propia de cada ítem, no relacionada con
los otros ítem. Esta compuesta de dos partes:

Varianza Específica , propiamente la varianza propia del ítem y varianza de error de


medición, la cual tiene que ver con el proceso de medición en sí (cansancio, estilos de
respuestas, problemas en la definición en la matriz de especificaciones, etc. Variables que no
puedes ser controladas previamente en el proceso de construcción de la matriz de
especificaciones.

6. Varianza total de un ítem puede descomponerse:

7. AFE
Se encarga de analizar la varianza común a todas las variables. Partiendo de una matriz de
correlaciones, trata de simplificar la información que ofrece. Se opera con las correlaciones
elevadas al cuadrado r 2 (coeficientes de determinación), que expresan la proporción de
varianza común entre las variables.
19

8. AF: MODELO
20

- ¿Qué es un factor?
En realidad los factores no existen, lo que existe de cada sujeto es una suma de sus
respuesta de ítems o preguntas, una combinación lineal de variables.

La suma total de los ítems son distintos para cada sujeto, o pueden serlo, la varianza
de los totales nos expresan la diversidad que existe entre los sujetos.

Si hay `n´ factores, se interpreta que el instrumento original se pueden descomponer


`n´ instrumentos (cada uno compuesto por todos los ítems), aunque en cada
instrumento los ítems tienen un ´peso específico´ distinto según su relación con el
factor:

Si encontramos, por ejemplo, tres factores, esto quiere decir que podemos
descomponer el instrumento original en tres instrumentos; cada uno está compuesto
por todos los ítems, pero en cada instrumento los ítems tienen un peso específico
distinto según sea su relación con cada factor:

Las nuevas puntuaciones son las puntuaciones factoriales o factor scores.


21

Los pasos pueden ser grandes o pequeños, positivos o negativos. Generalmente, en


cada factor hay ítems con pesos grandes y otros próximos a cero; los ítems que más
pesan en cada factor son los que lo definen.

La varianza (diversidad) de todas las nuevas medidas equivale a la varianza de la


medida original (no a toda, pero sí a la máxima que es posible explicar); estos
factores indican las fuentes de varianza; si hay diferencias en la medida original es
porque las hay en estas nuevas puntuaciones.

El análisis factorial se reduce a la búsqueda de estos pesos para localizar medidas


distintas a partir de las variables originales, y de manera que, entre todas las nuevas
medidas agoten o expliquen toda la varianza presente en las variables originales.

- Análisis factorial: Pasos


1) Calcular la matriz de correlaciones o de varianza-covarianza.
2) Evaluar la adecuación del análisis.
3) Extraer los factores que representan los datos.
4) Rotar los factores para interpretarlos.
5) Calcular puntuaciones factoriales
- Análisis factorial: ¿Cuándo es adecuado hacerlo?
1) Correlaciones altas entre item (inspección de la matriz)
2) Determinante de la matriz de correlaciones, debe ser bajo pero no 0 (indicaría
colinealidad y es imposible hacer AF)
22

3) Test de Esfericidad de Barlett: aceptar H o indica que no están


correlacionadas y es desaconsejable hacer el AF
4) KMO (Kaiser-Meyer-Olkin): valores bajos (<0,6) desaconsejan usar el AF
5) MSA (Medida de Adecuación a la Muestra): valor pequeño desaconseja el
AF, eliminar ítems con MSA bajo.
6) Ojo a los tipos de correlaciones: ítems dicotómicos (tetracórica), ítems
politómicos (policórica), ítems continuos (muy raro - Pearson).

- Ejemplo AF
● Muestra:
Participantes: Este trabajo se ha realizado con una muestra no aleatoria de 836
estudiantes universitarios de Pedagogía (127), Educación Infantil (267),
Primaria (337) y Social (105) pertenecientes a la Universidad Complutense de
Madrid quienes han participado voluntariamente y mediante consentimiento
informado en este estudio. Los alumnos participantes estaban matriculados en
la asignatura de Estadística, el 82,56% de la muestra se matriculaba por
primera vez y el 16,8% no.
La muestra ha estado conformada por un 16,46% de hombres y un 82,54% de
mujeres. El rango de edad de los participantes del estudio oscila entre 17 y 65
años con una media de 20.42 (SD=3.98). Respecto a su procedencia
académica un 63,26% habían realizado bachillerato y un 31,75% formación
profesional, adicionalmente un 78,38% provienen de un bachillerato con
énfasis en humanidades y ciencias sociales, un 18.51% en ciencias y un 2,7%
en artes. Un 49.28% considera que tiene unos conocimientos básicos de
estadística, un 28.35% cree que sus conocimientos son medios, un 14.83%
considera que son nulos y solo un 6.22% afirma tener conocimientos
avanzados.

● Escala de actitudes hacia la estadística (EAE) de Auzmendi (1992)


Instrumento de 25 ítems y cinco dimensiones:
➢ Utilidad (ítems 1, 6, 11, 16 y 21)
➢ Ansiedad (ítems 2, 7, 12, 17 y 22)
➢ Confianza (ítems 3, 8, 13, 18, 23)
➢ Agrado (ítems 4, 9, 14, 19 y 24)
➢ Motivación (ítems 5, 10, 15, 20 y 25)
23

- Análisis factorial: Matriz de correlaciones.

- Análisis de si es adecuado el AFE


24

- Varianza explicada
25

- AF: Solución final

- AF: Matriz de correlaciones reproducidas


26

- AFE: Matriz de residuos

- AFE: Solución rotada


27
28
29
30

- AFE: Matriz de covarianzas entre factores


31

- Validez de constructo
Las cargas factoriales estimadas me permiten tener evidencia de validez de
constructo de un instrumento. Entre más altas sean las cargas factoriales más
evidencia de validez de constructo se tiene.

Sin embargo, el AF es una estimación posible entre muchas otras, es decir, no se


confirman las hipótesis de que las cargas factoriales de un factor explican
exclusivamente la varianza de un ítems, para ello se hace necesario realizar un
Análisis Factorial Confirmatorio (AFC).
- Cuestionario de actitudes hacia la estadística (CAHE) Ordoñes, Romero y Ruiz de
Miguel 2016.
32
33
34

9. Procedimiento de acumulación de evidencias


9.1. Coeficiente de validez
Es la correlación lineal entre las puntuaciones del test y el criterio. Para calcularlo hay que
disponer de las puntuaciones tanto en el test como en el criterio.
35

9.2. Factores que afectan al coeficiente de validez


9.2.1. Fiabilidad
- Estimación del coeficiente de validez si el test y el criterio tuvieran una fiabilidad
perfecta.

- Estimación del coeficiente de validez si solo el test tuviese una fiabilidad perfecta
36

- Estimación del coeficiente de validez si solo el criterio tuviese una fiabilidad perfecta

- El valor del coeficiente de validez cuando se mejora la fiabilidad del test y del
criterio mediante la fórmula:

- Cuando solo se mejora la fiabilidad del test pero no del criterio:

- Cuando se mejora la fiabilidad del criterio pero no del test:

9.2.2. Longitud
La longitud del test es uno de los aspectos que influye en la fiabilidad, pues cuanto más largo
es el test mayor coeficiente de fiabilidad, por lo tanto un aumento en la longitud también
repercutirá en el coeficiente de validez de la siguiente manera:
37

Despejando n en la ecuación se puede estimar el número de ítems que es necesario agregar al


test para alcanzar un coeficiente de validez determinado:

9.2.3. Variabilidad
La correlación entre dos variables aumenta cuando la muestra es más variable, por lo tanto,
el coeficiente de fiabilidad se verá incrementado a medida que aumenta la variabilidad de la
muestra.
Para saber en cuánto aumenta el coeficiente de validez en función de la variabilidad se usa la
siguiente ecuación:

10. Procedimientos de acumulación de evidencias


10.1. Modelo de regresión simple
El modelo de regresión lineal simple se puede expresar como:

Donde los términos α y β son los parámetros de la recta de regresión: α es el origen, es decir,
el punto en el que la recta cruza el eje de ordenadas, y β es la pendiente de la recta, es decir,
la inclinación de la recta con respecto al eje de abscisas. El parámetro β es el que se debe
analizar para saber si las variables X e Y se encuentran relacionadas. El término e se refiere a
los errores, es decir, a las distancias entre cada pareja X,Y y la recta.

Los términos α y β se pueden estimar mediante las siguientes ecuaciones:


38

Quedando la fórmula:

10.2. Error típico de estimación

10.3. Intervalos de confianza


Dado que en la predicción existe error de estimación, no es conveniente realizar una
estimación puntual del criterio sino, por el contrario, conviene establecer intervalos de
confianza dentro de los cuales se estima que esté la puntuación pronosticada, teniendo en
consideración el margen de error.
39

10.4. Coeficiente de determinación, alienación y valor

● Coeficiente de determinación (CD). Es el cuadrado del coeficiente de validez.


Expresa la proporción de varianza común entre test y criterio, en otras palabras,
expresa la proporción de varianza del criterio que se puede predecir a partir del test.

● Coeficiente de alienación (CA). Es la raíz cuadrada del complemento del coeficiente


de determinación, que es justo lo contrario del coeficiente de determinación, es decir,
el grado en que el test está separado del criterio o no es influido por él.
40

● Coeficiente de valor predictivo (CVP). Es el complemento del coeficiente de


alienación, y es otra forma de expresar la capacidad predictiva del test.

También podría gustarte