Confiabilidad
Dependabilidad o consistencia
Coeficiente de confiabilidad
Un ndice de confiabilidad, una proporcin que indica
qu proporcion de la varianza total de las
puntuaciones se debe a la varianza del error.
Proporcion de varianza que es verdadera varianza
Confiabilidad
Se refiere a la consistencia de las puntuaciones
obtenidas por las mismas personas cuando se les
examina en distintas ocasiones con el mismo test, con
conjuntos equivalentes de reactivos, o en otras
condiciones de examinacin.
Confiabilidad
En un sentido mas amplio la confiabilidad indica la
medida en que las diferencias individuales en los
resultados pueden atribuirse a verdaderas diferencias
en las caratersticas evaluadas, y el grado en que
pueden deberse a errores fortuitos.
Confiabilidad
En lo concreto el ndice de confiabilidad de una prueba
es una medida de correlacin de la prueba consigo
misma.
La forma de obtener este ndice puede variar
dependiendo de las caracteristicas de la prueba o de las
condiciones que se desean controlar
Se lo representa como una r11 o rtt
Las puntuaciones que se obtienen de la aplicacin de un
test siempre contienen un cierto error que se conoce
como ERROR DE MEDIDA:
Es la diferencia entre la puntuacin obtenida por el
sujeto en el test y la puntuacin verdadera del mismo
en la caracterstica objeto del test.
Error de Medicin
El error de medicin se refleja en el hecho de que:
Un test pasado a un sujeto en dos ocasiones
diferentes no da lugar a la misma puntuacin;
Dos sujetos con el mismo nivel en la caracterstica
obtengan puntuaciones diferentes en el test;
Dos sujetos con niveles diferentes en la caracterstica
alcancen puntuaciones idnticas en el test.
Segn la TEORA CLSICA DE LOS TESTS la
puntuacin emprica que obtiene un sujeto cuando se
le administra un test X es funcin del:
Nivel real o verdadero en que ese sujeto posee la
caracterstica o rasgo que est evaluando dicho test
(puntuacin verdadera) y
Del error de medida que siempre se introduce en
cualquier proceso de medicin.
Error de Medicin
X = V + E
2o = 2r + 2e
Varianza
momento 1
V
+
ES
Varianza
momento 2
El problema es que NUNCA conocemos la puntuacin
verdadera V. En la ecuacin:
X: V + E
tenemos tres trminos y solo podemos conocer uno de
ellos: la puntuacin emprica X. Cmo solucionar
esto?
Lo que plantea la TCT es que la mejor estimacin
que se puede hacer de LA PUNTUACIN
VERDADERA -V- es la media de las puntuaciones
empricas que se obtendran si se le aplicara dicha
prueba al sujeto en las mismas condiciones un
nmero infinito de veces.
VA es el estimador de la puntuacin verdadera V del sujeto A;
VA = X A =
X
i =1
Ai
X A es la media de los valores obtenidos en la variable X A en las N
veces que sta se ha medido;
X Ai es la puntuacin emprica X obtenida por el sujeto A en la
ocasin i;
N es el nmero de ocasiones que se ha medido al sujeto en el test
El ERROR DE MEDICIN puede estimarse, segn la
Teora clsica de los tets, calculando la variabilidad de
las puntuaciones empricas obtenidas por un sujeto ese
nmero infinito de ocasiones en las que se le ha aplicado
la prueba, es decir, calculando su varianza o su
desviacin tpica conocida como ERROR TPICO DE
MEDICIN:
N
2 e =
( X
Ai
XA
i=1
2 e
e =
(X
i =1
Ai
XA
corresponden respectivamente a los estimadores
de la varianza y la desviacin tpica de los errores de medida.
e
Una medida colectiva del error de medida es el
ERROR ESTANDAR DE MEDICIN, que se obtiene
por cualquiera de estas dos ecuaciones aplicadas
sobre toda la muestra de N sujetos a la que se ha
administrado el test:
e =
i=1
x es la desviacin tpica de las puntuaciones
empricas en el test.
= x 1 rxx
rxx es el coeficiente de confiabilidad del test, es decir,
el cociente entre la varianza de las puntuaciones verdaderas
y la varianza de las puntuaciones empricas.
EEM
Media +/- 1 meas = 68% confianza de que el puntaje
real se encuentra en el rango
Media +/- 2 meas = 95.44% confianza de que el puntaje
real se encuentra en el rango
EEM = 9, Puntaje observado = 100
Intervalo de confianza (68 %) = 91 109.
Estimaciones de la Confiabilidad
Confiabilidad Test-Retest
Confiabilidad por Formas Paralelas
Confiabilidad por mitades
Frmula Spearman-Brown
Estimacin de la Consistencia Interna
Frmulas Kuder-Richardson
Alfa de Cronbach
Medicion de la Confiabilidad entre evaluadores
El estadstico Kappa
Confiabilidad
Fuentes de la varianza de error
Construccion del test
Eleccin de los item / contenidos
Maximizacin de la varianza verdadera
Administracin del test
Medio ambiente (ej. temp)
Administrador del test (ej. acelerado)
Temas a nivel individual (ej. nimo, enfermedades)
Instrucciones (ej. estandarizacion)
Confiabilidad
Puntuacin del test e interpretacin
La forma de observar del evaluador y la interpretacion
de su conducta
Ej. Contacto visual y el tono de voz pueden hacer
ver que se esta agradado
Otras fuentes de error
Error no sistemtico
Ej.
Olvidar, equivocarse, no entender las
instrucciones
Error no sistemtico
Ej. No reportar todas las conductas
Confiabilidad Test Re test
E n q u e m e d i d a s e r e l a c i o n a n d i f e r e n t e s
administraciones del mismo test?
Correlacin
En que medida las respuestas cambian a medida que
pasa el tiempo?
Coeficiente de estabilidad
Mas de 6 meses
Ejemplos de factores que pueden afectar la
confiabilidad
Trauma
Ejercitacin / experiencias/ otras fuentes de
informacin
B u s c a r i n f o r m a c i n c o n o t r o s
administradores
Entrenamiento
Motivacin
Estimacin de la confiabilidad por formas
paralelas y por formas alternativas
Coeficiente de equivalencia
Coeficiente de confiabilidad
Formas paralelas
Las medias y varianzas de los puntajes observados se
esperan iguales.
Las medias de las formas paralelas debieran
correlacionar de la misma forma con el puntaje real
Los puntajes obtenidos debieran correlacionar bien
y de la misma con otras medidas
Estimacin de la confiabilidad por formas
paralelas y por formas alternativas
Formas alternativas
Diferentes formas del test, similares en contenido
y dificultad
Estimacin de la confiabilidad por formas
paralelas y por formas alternativas
Para obtener la estimacion:
Dos administraciones del test con el mismo grupo de
personas
Los puntajes de los test estaran afectados por las
mismas fuentes de error
Ademas, la eleccin de los items
Consistencia Interna
Consistencia Interna
Confiabilidad por mitades
KR-20
Coeficiente Alfa
Confiabilidad por mitades
Es la correlacin entre dos puntuaciones obtenidas de
mitades equivalentes de un mismo test, administrado en
una sola oportunidad.
Util cuando es poco prctico llevar a cabo dos
administraciones, o no se cuenta con dos versiones
del test.
Confiabilidad por mitades
Cmo dividir?
Primera mitad / segunda mitad
Fatiga!
Confiabilidad pares / impares
Dividir por contenido / dificultad
Las inferencias pueden cambiar sustancialmente.
Pasos:
Dividir el test en dos mitades equivalentes
Calcular una r de Pearson entre las mitades
Ajustar la confiabilidad de la mitad del test usando
la frmula de Spearman Brown
Frmula Spearman-Brown
Permite la estimacin de una confiabilidad basndose en
la longitud deseada de un test.
rxx =
nrxy
____________
1+ (n 1) rxy
rxy = estimacion original
n = longitud final de la prueba (cuantas veces mas)
Frmula Spearman-Brown
Ejemplo:
Si la confiabilidad de una prueba compuesta por 20 items
es de 0.70, y se quiere estimar cual seria la confiabilidad
si se suman 40 reactivos mas (un total de 60 items, es
decir, tres veces mas larga):
rxx =
3 (0.7)
____________
1+ (3 1) 0,7
= 0.88
Consistencia Inter-Items
Se refiere al grado de correlacion entre todos los items
de una escala.
Se calcula a partir de una nica administracin
Es una estimacion de la homogeneidad o
Heterogeneidad
Se puede dividir en factores, evaluar despues esos
sub factores, etc.
Homogeneidad/Heterogeneidad
Formula Kuder-Richardson (KR-20)
Si los items de un test son homogneos, la estimacion
por mitades y KR-20 sern similares
Cuando son heterogneas, las estimacin KR-20
producir resultados menores.
KR 20 se utiliza cuando los tems son dicotmicos (ej.
Si/No)
rkr20 = (k/k-1) [1 (pq/2)]
Los pasos a seguir para determinar la
confiabilidad KR-20 son:
[Link] los valores p para cada reactivo,
multiplicarlos por 1-p y sumar los resultados
obtenidos
[Link] la varianza de las puntuaciones de la
prueba total y dividirla por la suma de los valores
pq
[Link] de 1 este resultado y multiplicarlo por la
porporcion entre el numero de reactivos de la
prueba y el nmero de reactivos de la prueba
menos 1
Alfa de Cronbach
Cronbach (1951)
Es equivalente al KR-20 pero tambien para items no
dicotmicos
Es la media de todas las posibles divisiones por
mitades
Ra = (k/k-1) [1 ( 2 i/2)]
k: nmero de items
2 : sumatoria de la varianza de los items
2 : varianza de la suma de los items
Alfa de Cronbach
Para variables continuas y discontinuas
Tipicamente va de 0 a 1
Indicador de similaridad
Afectado por el numero de items
>0.90 puede indicar redundancia
Confiabilidad entre jueces
Confiabilidad entre evaluadores, jueces, y/o
observadores, etc
Por que diferentes evaluadores podran
evaluar distinto?
Ej. evaluaciones laborales, prueba de
conduccin
El coeficiente de correlacin es la confiabilidad
entre los evaluadores.
Evaluadores
Evaluador 1
Tomas
Sara
Marco
Luis
Ana
Benjamin
2
3
1
1
3
4
Evaluador 2
Tomas
Sara
Marco
Luis
Ana
Benjamin
4
5
3
3
5
6
Cual sera la correlacin entre estos dos evaluadores?
A quien preferira como evaluador?
Utilizacin e Interpretacin el Coeficiente de
Correlacin
El propsito del coeficiente de correlacin
La naturaleza del test
Homogeneidad versus heterogeneidad de los items
del test
Caractersticas estticas versus dinmicas
Restriccion o inflacin del rango de variabilidad de
puntajes
Test de velocidad versus de potencia
Test basados en criterios
Teoras alternativas a la TCT
El propsito del Coeficiente de Correlacin
Qu tipo de clculo de la confiabilidad debe
utilizarse?
El fin de la medicin
Que tan alta debe ser una correlacion?
Implicaciones
Comprender las fuentes de error, limitaciones, y
otras consideraciones de la medicin .
La Naturaleza del Test
Homogeneidad versus heterogeneidad de los items del
test
El mismo constructo o subfactores
Caractersticas dinmicas versus estticas
Rasgo versus estado
Restriccin o inflacin del rango de puntajes
Ej. Nivel de ejecucin de un trabajo con sujetos ya
contratados
La Naturaleza del Test
Test de velocidad versus potencia
Potencia: items difciles; Velocidad: temes fciles,
pero con tiempo limitado
Test referidos a criterios
El desempeo se evala en relacin a un criterio
Alternativas al modelo clsico de la medicion
(Modelo del puntaje real)
Modelo del puntaje real
Busca estimar la proporcin del puntaje de un test que
es atribuible al error.
Teora del muestreo del dominio
Busca estimar la medida en que fuentes de variacion
especficas, bajo condiciones definidas contribuyen al
puntajes de un test.
Teora del muestreo del dominio
Respresenta una forma un tanto diferente de pensar en
las poblaciones y las muestras.
Dominio Poblacion o universo de todos los items
posibles que miden un concepto o rasgo particular
(tericamente infinito)
Test Una muestra de itemes de ese universo
Teoria del muestreo del dominio
El puntaje verdadero de una persona se obtendra si
contestase todos los items del universo de items.
Solo podemos ver las respuestas a una muestra de los
itemer en el test.
De esta forma, la confiabilidad es la proporcion de la
varianza en el universo explicada por la varianza del test.
Teora del muestreo del dominio
Un universo esta hecho de un gran numero de items
(posiblemente infinito)
As, mientras mas largo es un test, representa de mejor
manera el dominio; por lo tanto los test mas largos
debieran tener mejor confiabilidad.
Tambin, si tomamos multiples muestras aleatorias de la
poblacion obtendremos una distribucion de una muestra
de puntajes que representan la poblacion.
Muestra 1
Debieran
tener las
mismas
Medias,
DS?
Universo
de items
Puntaje
del U=
Puntaje
Verdadero
Muestra 2
Teora de Respuesta al Item
TRI/Teora del rasgo latente
Se enfoca en el grado en que un item particular de un
test es til para evaluar individuos de los que se presume
poseen distintos niveles de un rasgo o habilidad
particular.
Teora de la Generabilizacion
Enfatiza que la confiabilidad no es una funcin del test en
si mismo sino que es funcion de las circunstancias bajo
las que el test es desarrollado, administrado e
interpretado.
El puntaje del universo reemplaza al puntaje real
Detalles de una situacion de test especfica
Ej. Numero de items, grado de entrenamiento,
propsitos del test y de la administracion, etc
Teoria de la Generabilizacion
Mismas condiciones : mismos puntajes
Puntaje del Universo
27
Febrero
21
Febrero
23
Febrero
29
Febrero
4
Junio
En que medida los puntajes son diferentes entre los dias?
Disimilaridad = error = menos generabilizacion de este aspecto
Teoria de la Generabilizacion
Estudios de generabilizacion
Examinan que tan generalizables son los puntajes de
un test particular basndose en la aplicacion en
diferentes situaciones
Que tanto impacto tienen diferentes circunstancias
del universo de circunstancias en los puntajes del
test?
El coeficiente de Generabilidad refleja el influjo de las
diferentes circunstancias en el puntaje del test.
Alcotest
New Jersey
BAL de .10%
Rango de .09-.11%
Momento de la administracion
Immediatamente o en el cuartel?
Multas de velocidad por radar?