VALIDACIÓN DE LOS INSTRUMENTOS DE ACOPIO DE DATOS
1. INTRODUCCIÓN
2. MARCO TEÓRICO
2.1 Instrumentos de Acopio de Datos
Definición:
Sampieri et al. (2014) menciona que los instrumentos de acopio de datos son herramientas
técnicas diseñadas para recopilar, registrar y organizar información relevante directamente
desde las fuentes primarias o secundarias, con el objetivo de analizar fenómenos según los
objetivos de una investigación. Estos instrumentos operan como vehículos mediante los
cuales se aplican técnicas de recolección (como entrevistas, encuestas u observación),
permitiendo transformar conceptos abstractos en datos medibles y sistemáticos.
Son el resultado de una planificación metodológica previa, en la que se definen las
variables, los indicadores y los procedimientos que guiarán la investigación. Así, los
instrumentos permiten traducir los marcos teóricos en información empírica cuantificable o
cualitativa, que posteriormente puede ser analizada para responder a las hipótesis o
preguntas de investigación.
[Link]
Su función en la investigación:
Los instrumentos de acopio de datos cumplen una función esencial dentro del proceso
investigativo, ya que actúan como el medio técnico y operativo que permite recolectar
información empírica de manera sistemática, válida y confiable, necesaria para responder a
las preguntas de investigación, comprobar hipótesis o generar teorías. En términos
metodológicos, su función se enmarca en el momento de obtención de datos, donde se
busca transformar los conceptos teóricos (variables e indicadores) en evidencias
observables y registrables que alimenten el análisis científico. Por tanto, estos instrumentos
materializan el diseño metodológico, convirtiendo ideas abstractas en datos concretos y
analizables.
2.1.1 Tipos de Instrumentos Cuantitativos
Miden variables numéricas y permiten el análisis estadístico de los datos
obtenidos. Por ejemplo, escalas de medición de temperatura, peso o
tiempo.
2.1.2 Tipos de Instrumentos Cualitativos
Miden variables no numéricas y no permiten análisis estadístico. Por ejemplo,
entrevistas abiertas, grupos focales, encuestas con opciones múltiples.
Estos instrumentos proporcionan una comprensión más detallada y
profunda de las perspectivas, actitudes y opiniones de los sujetos de
estudio.
En resumen, los instrumentos cuantitativos se enfocan en medir cantidades, mientras que
los instrumentos cualitativos se enfocan en la descripción y comprensión de las cualidades
(Bacon-Shone, 2020).
[Link]
2.2 VALIDACIÓN DE UN INSTRUMENTO
Se refiere al grado de medición del instrumento en relación con el objetivo planteado y sus
características. Es un conjunto de procesos que permiten evaluar la pertinencia y
efectividad de un instrumento determinado para la medición o evaluación de una variable en
estudio. Es necesario recordar en este punto que no todas las variables son medibles,
aunque con el fin de estandarizar el lenguaje se ha determinado que existen cuatro escalas
de ‘medición’ de las variables, las mismas que están directamente relacionadas con la
naturaleza de las variables por ‘medir’, tales escalas son:
● Las variables correspondientes a la escala de intervalo son puramente cuantitativas y
que con sus valores se pueden establecer los denominados intervalos de clase y con ello
agrupar los datos para su posterior análisis.
● Las variables con escala de razón son aquellas que además de hacer lo que las de
intervalo, “poseen unidades de medida y establecen unos cero absolutos o punto de
origen que permite comparar valores mediante la división o razón entre los distintos
valores de la escala”. (Rubio, 2016, citado en Sarabia, 2024).
2.2 VALIDEZ
Almada (2019, citado en Landaeta ,2024), definen a la validez de un instrumento de acopio
de datos como el grado en el que un instrumento en verdad cuantifica la variable que se
busca medir, por ejemplo, un instrumento válido para determinar la inteligencia debe medir
inteligencia y no la memoria. En tal sentido, hace referencia a la validez de las pruebas, las
mismas que evalúan la validez de contenido, criterios y de constructo
• La validez de contenido se refiere al grado en que un instrumento refleja un dominio
específico de contenido de lo que se mide.
• La validez de criterio se establece al validar un instrumento de medición al compararlo con
algún criterio externo que pretende medir lo mismo.
• La fluidez del constructo debe explicar el modelo teórico empírico que subyace a la
variable de interés.
Importancia
La validez es una característica fundamental en los instrumentos de recolección
de datos porque garantiza que los resultados obtenidos realmente representen la
realidad que se desea investigar. Es decir, asegura que el instrumento mida
exactamente el fenómeno o la variable que el investigador se ha propuesto
estudiar.
2.2.1 Tipos de Validez
a) Validez interna
La validez interna, también conocida como valor de verdad o credibilidad, se
refiere al grado en que los resultados de una investigación reflejan de
manera fiel la realidad que se estudia. Para alcanzarla, es fundamental
asegurar la validez de las observaciones, lo que implica categorizar
cuidadosamente y definir con claridad los aspectos que se van a observar.
Además, se requiere verificar la validez de los informantes, presentándoles
los datos obtenidos para que confirmen su veracidad o corrijan posibles
errores en el registro e interpretación de sus respuestas.
b) Validez externa
La validez externa, también llamada transferibilidad, se refiere a la posibilidad
de aplicar los hallazgos de una investigación a otros grupos o contextos
distintos al estudiado originalmente. Esta validez se logra cuando los
resultados pueden ser comprendidos y utilizados en escenarios similares,
siempre que exista una relación clara entre los contextos y los referentes
teóricos empleados.
Para garantizar la transferibilidad, es necesario que el informe de investigación
incluya ciertos elementos que permitan al lector juzgar si los hallazgos
pueden aplicarse a otras situaciones. Según Moreira (citado en Corral et
al., 2019), estos elementos incluyen: aserciones empíricas claras, viñetas
narrativas, citas directas de notas de campo y entrevistas, resúmenes
visuales como tablas comparativas o mapas, comentarios interpretativos
tanto específicos como generales, discusiones teóricas y una descripción
detallada de cómo se llevó a cabo la investigación (historia natural de la
indagación). De esta forma, el lector podrá evaluar si existe suficiente
similitud contextual y conceptual (Castillo & Vásquez, 2013; Hernández
Sampieri et al., 2014) como para transferir los resultados a su propio
entorno.
c) Validez de contenido, racional lógica
Reyes y Hernández (2021); explican que en el Juicio de experto se considerará
cinco criterios para evaluar el instrumento con una escala de
calificación y los indicadores correspondiente a cada escala y criterio.
CRITERIOS ESCALA DE
CALIFICACIÓN
Suficiencia Los ítems que pertenecen a una
misma dimensión bastan para
obtener la medición de esta.
1. No cumple
con el criterio.
El ítem se comprende fácilmente, es
2. Bajo Nivel.
Claridad decir su sintaxis y semántica son
3. Nivel
adecuadas.
Moderado.
Coherencia El ítem tiene relación lógica con la 4. Alto Nivel
dimensión o indicador que está
midiendo
El ítem es esencial, significa que si
Importancia contribuye a entender el objeto de
estudio.
Pertinencia El ítem es relevante por su
estrecha relación con el propósito
establecido
b) Validez de constructo
La validez de constructo se refiere a la capacidad de un instrumento para medir
con eficiencia y precisión los indicadores de una variable, basándose en un
marco conceptual sólido. Un constructo es una construcción teórica elaborada
por el investigador para explicar patrones, relaciones o comportamientos
observables, como rasgos, actitudes o habilidades. Por ello, esta validez resulta
fundamental cuando se busca valorar el desempeño en pruebas que miden
cualidades abstractas, como el razonamiento verbal, la sociabilidad o la
visualización espacial (Corral, 2009, 2014; Ruiz Bolívar, 2013).
La validez de constructo exige una definición clara y teóricamente fundamentada
de los rasgos a estudiar, y es comúnmente aplicada en tests psicológicos o
pruebas educativas como las de admisión. Según Hernández Sampieri et al.
(2014), su evaluación implica tres etapas: primero, establecer a partir de la
literatura las relaciones entre los conceptos teóricos y las variables incluidas en
los constructos; segundo, estimar y analizar las correlaciones entre estos
constructos; y tercero, interpretar las evidencias empíricas obtenidas para
determinar el grado en que el instrumento mide efectivamente lo que pretende
medir. Esta forma de validez es esencial para garantizar que las mediciones no
solo sean coherentes, sino también teóricamente justificadas y empíricamente
verificables.
[Link]
d) Validez Predictiva o de Criterio Externo o Empírica
La validez predictiva es especialmente útil cuando el objetivo de una investigación es
anticipar el desempeño futuro de las personas frente a tareas o actividades
específicas. Este tipo de validez se determina comparando los puntajes obtenidos
por un instrumento, aplicado en una prueba piloto, con una o más variables externas
de criterio. Para ello, se calcula un coeficiente de correlación, que actúa como índice
de validez: cuanto más alta sea la correlación entre ambas mediciones, mayor será
el poder predictivo del instrumento (Ruiz Bolívar, 2013).
El procedimiento básico consiste en aplicar la prueba a un grupo de interés (grupo
piloto) y, posteriormente, obtener una medida cuantitativa de éxito para cada
individuo, a través de otro instrumento que mida la variable criterio. Luego se
correlacionan ambos resultados. Si los datos son numéricos y continuos, se usa el
coeficiente r de Pearson; si son ordinales, se emplea el coeficiente de Spearman.
Esta validación es clave para asegurar que los instrumentos diseñados
específicamente para una investigación como (guías de entrevista, formatos de
registro, rúbricas, escalas, listas de cotejo, cuestionarios, entre otros) proporcionen
información confiable y útil. Sin embargo, hay instrumentos que no requieren
validación formal, como entrevistas en profundidad sin guiones fijos, historias
clínicas ya validadas por su uso habitual, conversaciones libres o notas de campo
producto de observaciones no sistemáticas. Validar adecuadamente garantiza que
los datos recogidos sean fidedignos y de calidad, fortaleciendo así la solidez de la
investigación.
[Link]
CUALIDADES DESCRIPCIÓN
DESEABLES
Atingencia Se consideran que un criterio es atingente en la media en
que esta medida criterio corresponde con o ejemplifica el
éxito en el trabajo.
Libre de sesgos La medida debería ser aquella en la que cada persona tiene
las mismas oportunidades de obtener una buena
puntuación.
Confiabilidad Debe ser estable o reproducible si ha de ser predicha por
algún tipo de prueba.
Disponibilidad Debe tener en cuenta límites prácticos como:
¿Qué tanto se debe esperar para obtener una puntuación?,
¿Cuánto dinero costarán las interrupciones de las
actividades?
Elaboración propia con referencia de Corral(2009) p.p 236
2.2.2 Métodos de Validez
a) Método de agregado
El método de agregados individuales es una técnica utilizada para validar instrumentos
mediante la opinión de expertos, a quienes se les solicita de forma individual que
realicen una estimación directa sobre los ítems del instrumento. Este método es
considerado económico y práctico, ya que no requiere reunir físicamente a los
expertos.
Aunque podría parecer limitado debido a que no permite el intercambio de opiniones o
experiencias entre los expertos, esta característica puede ser vista como una
ventaja, ya que ayuda a reducir posibles sesgos derivados de presiones grupales,
conflictos interpersonales o influencias dominantes dentro de un grupo. De este
modo, el método de agregados individuales garantiza que cada juicio experto se
exprese de manera independiente y objetiva, contribuyendo así a una evaluación
más imparcial del instrumento.
b) Juicios de expertos
El comité de expertos es una metodología ampliamente utilizada para establecer la
validez de contenido de un instrumento de evaluación, consiste en reunir a un panel
de jueces expertos, cada uno con conocimiento especializado en las áreas
curriculares que el instrumento pretende evaluar. Estos expertos se encargan de
analizar aspectos clave como la coherencia de los ítems con los objetivos del curso,
la complejidad de los ítems y la habilidad cognitiva que se busca medir.
Para garantizar la rigurosidad del proceso, se requiere que los jueces estén capacitados
en técnicas de clasificación de preguntas relacionadas con la validez de contenido.
Esta metodología permite asegurar que cada ítem sea relevante, adecuado y
apropiado para los propósitos del instrumento, y por ello, es considerada la más
utilizada y confiable para validar el contenido en contextos educativos y de
evaluación formal.
c) Análisis factorial exploratorio
El análisis factorial es una técnica estadística utilizada para evaluar la validez de
constructo, especialmente cuando un test o instrumento está estructurado en
diferentes factores que representan atributos o dimensiones teóricas diferenciadas,
su objetivo es identificar si los ítems del instrumento se agrupan coherentemente en
torno a constructos subyacentes, es decir, variables no observables que explican los
patrones de respuesta de los participantes.
Según Argibay(2006) este análisis se basa en el estudio de las intercorrelaciones entre
los ítems, permitiendo detectar agrupaciones coherentes que reflejan los factores
teóricos planteados al diseñar el test. No solo se aplica como método de validación,
sino que también es útil en la construcción del instrumento, ayudando a definir o
ajustar su estructura.
Una vez elaborado el test y definidos sus factores teóricos, el análisis factorial puede
aplicarse a los datos recolectados de una muestra representativa, si los resultados
permiten replicar la estructura factorial propuesta, se puede afirmar que el
instrumento posee validez factorial, lo que fortalece su credibilidad y utilidad para
medir los constructos definidos desde el marco teórico.
[Link]
d) Correlación de Pearson o Spearman
Según Durrant (2013) la correlación de Pearson y la correlación de Spearman son
métodos estadísticos utilizados para evaluar la validez de los instrumentos,
especialmente la validez de criterio y la validez de constructo, son herramientas
clave en investigaciones educativas, psicológicas y sociales.
La correlación de Pearson se aplica cuando las variables son numéricas y tienen una
relación lineal con distribución normal, su valor oscila entre –1 y +1, indicando la
fuerza y dirección de la relación, es útil cuando se desea comprobar si un
instrumento predice con precisión una variable externa.
Por su parte, la correlación de Spearman se usa cuando las variables son ordinales, no
tienen distribución normal o presentan datos atípicos. Este coeficiente transforma los
datos en rangos y mide relaciones monótonas, no necesariamente lineales, es ideal
para escalas como Likert o para datos cualitativos ordenados.
Ambos coeficientes permiten saber si los resultados de un instrumento son coherentes
con otros criterios o constructos, ayudando a demostrar su validez.
[Link]
e) Regresión lineal
La regresión múltiple es una extensión natural de la regresión lineal simple que implica
el uso de múltiples variables independientes que se combinan para predecir una
única variable de criterio (Cohen y Cohen, 1983 ).
Es una técnica estadística utilizada en la evaluación de la validez predictiva de un
instrumento, ya que permite analizar en qué medida una variable (predictora) es
capaz de anticipar o explicar el comportamiento de otra variable (criterio). En
contextos de validación, se aplica principalmente cuando se busca demostrar que los
resultados obtenidos por un instrumento permiten predecir resultados futuros
relacionados con el desempeño, habilidades o actitudes de los evaluados.
Esta técnica consiste en construir una ecuación de una línea recta que representa la
relación entre las dos variables, y que permite estimar el valor de una a partir de la
otra. Cuanto más fuerte sea esta relación (es decir, mayor sea el coeficiente de
determinación R²), mayor será el poder predictivo del instrumento. Por ejemplo, si un
test de admisión predice con precisión el rendimiento académico, se considera que
tiene alta validez predictiva.
[Link]
f) Triangulación
Según Martínez (2006) la triangulación es una estrategia metodológica que, en el ámbito
de las ciencias humanas, se emplea para fortalecer la validez y confiabilidad de una
investigación. En su sentido amplio, consiste en la combinación de diferentes
enfoques, técnicas, fuentes de datos o investigadores, con el objetivo de obtener una
comprensión más completa, profunda y precisa del fenómeno estudiado.
Una de sus principales ventajas es que permite integrar tanto métodos cualitativos como
cuantitativos, aprovechando lo mejor de ambos enfoques. De este modo, se pueden
comparar y contrastar los resultados obtenidos por distintas vías, aumentando la
credibilidad de los hallazgos. La idea central de la triangulación es usar todos los
recursos que sean pertinentes, relevantes y útiles para el estudio, lo que aporta
mayor solidez y riqueza interpretativa al proceso investigativo.
[Link]
2.2.3 Técnicas de Validez
a) Estadísticas
Son aquellas que se basan en el uso de métodos cuantitativos para determinar en qué
medida un instrumento mide lo que pretende medir, utilizan herramientas como la
correlación de Pearson o Spearman, el coeficiente Alfa de Cronbach, el coeficiente
Kuder-Richardson (KR-20) y la regresión lineal, entre otras. Estas técnicas permiten
analizar la consistencia interna, la validez de criterio y la validez de constructo,
utilizando datos numéricos y modelos matemáticos para sustentar la calidad de los
instrumentos, se emplean, por ejemplo, al validar pruebas de rendimiento,
cuestionarios o escalas psicométricas, brindando resultados objetivos y medibles
sobre la eficacia del instrumento.
b) Estructuradas
Se refieren a aquellas metodologías que siguen un proceso sistemático y organizado para
evaluar los elementos del instrumento, usualmente a través del juicio de expertos,
entre estas técnicas se encuentran el comité de expertos, el método de agregados
individuales y el método Delphi. Estas técnicas permiten analizar la validez de
contenido, asegurando que los ítems del instrumento estén alineados con los
objetivos de evaluación, las habilidades que se desean medir y los niveles de
complejidad cognitiva, son ampliamente utilizadas en contextos educativos y de
evaluación curricular, donde se requiere verificar si un instrumento está
adecuadamente diseñado desde el punto de vista conceptual y pedagógico.
c) Replicables
Las técnicas replicables se enfocan en validar un instrumento a través de su aplicación
constante en diferentes contextos, momentos o muestras, para confirmar que los
resultados se mantienen estables y consistentes, la triangulación, el test-retest, y el
análisis de casos comparativos son ejemplos de estas técnicas. Su objetivo es
demostrar que el instrumento conserva su validez a lo largo del tiempo, y que sus
resultados pueden ser generalizados o transferidos a otras situaciones similares,
estas técnicas son clave para evaluar la validez externa o transferibilidad, y también
contribuyen a la validez interna, al corroborar que los resultados obtenidos no son
producto del azar o de circunstancias específicas de una única aplicación.
2.2.4 Factores que Afectan la Validez y confiabilidad
Los factores que afectan la validez son elementos que pueden distorsionar los resultados de
un instrumento y dificultar su correcta interpretación. Entre los principales se encuentran:
Construcción del instrumento: La validez puede verse afectada si el instrumento tiene
instrucciones poco claras, preguntas mal redactadas o ambiguas, ítems que no se
relacionan con lo que se quiere medir, reactivos que sugieren la respuesta, o si el
cuestionario es demasiado corto o mal organizado. Todo esto puede provocar confusión y
respuestas incorrectas.
Administración y calificación: Errores durante la aplicación, como tiempo insuficiente,
ayuda externa indebida (copias o intervención de terceros), o subjetividad en la calificación,
también afectan la validez del instrumento.
Respuestas de los sujetos: Factores como el estrés, el nerviosismo o el hecho de que los
participantes respondan al azar, pueden influir negativamente en los resultados obtenidos.
Grupo y criterio inapropiados: Si el instrumento se aplica a un grupo diferente al que fue
diseñado, puede no ser válido, ya que los resultados no reflejarán con precisión las
características que se pretende evaluar.
[Link]
[Link]
Drogas_de_Abuso/Articulos/[Link]
2.3 CONFIABILIDAD O FIABILIDAD
La confiabilidad de los instrumentos se refiere al grado en que la aplicación del
instrumento a los mismos agentes informantes, repetidamente en las mismas
condiciones, genera idénticos resultados, por lo que no es sensible a cambios o
fluctuaciones (entre evaluadores y observadores) de la variable.
Existen diferentes tipos de confiabilidad y para la implementación de cualquiera de ellos
se requiere de la aplicación de una prueba piloto, la cual es una aplicación del
instrumento a un grupo de agentes informantes con las mismas características
demográficas (edad, profesión, nivel escolar y cualquier propiedad relevante para el
estudio) establecidas en la investigación.
Por otro lado, es necesario aclarar que no necesariamente todos los instrumentos
requieren confiabilidad, ya que cada tipo de investigación tiene sus características
específicas; como señalan Artigas y Robles (2010), si el instrumento de recolección de
datos es de preguntas abiertas y la técnica la entrevista, no tiene sentido realizar la
confiabilidad, pues las respuestas serán diversas en todos los casos y no habrá forma
de medir uniformidad en las mismas. Por lo tanto, cada tipo de investigación debe ser
analizada por separado en función de sus características.
[Link]
20.500.12010/36461/88.%20Tecnicas%20e%20instrumentos
%20recolecci%c3%b3n%20de%[Link]?sequence=1&isAllowed=y
- Importancia
La importancia de la confiabilidad radica en que sin ella, los datos pueden
variar de forma arbitraria, lo que pone en duda la precisión de los
resultados y la validez de las conclusiones de una investigación. Por
tanto, la confiabilidad brinda seguridad sobre la calidad y la objetividad de
los datos recolectados.
2.3.1 Tipos de fiabilidad:
[Link]
4f4a-be08-ec7839528f01/content
a) En relación con el calificador;
Este tipo de confiabilidad evalúa el grado de acuerdo entre las puntuaciones
asignadas por dos o más evaluadores al mismo grupo de personas
(Correa-Rojas, 2021).Se calcula mediante técnicas de correlación, como el
coeficiente de correlación producto-momento de Pearson (r), o a través del
porcentaje de coincidencia entre las puntuaciones de los evaluadores.
Este tipo de confiabilidad es especialmente relevante para instrumentos que
utilizan técnicas de observación.
b) En el curso de tiempo
También conocida como coeficiente de estabilidad o estabilidad temporal,
evalúa la capacidad de un instrumento para producir resultados
consistentes cuando se aplica en dos momentos diferentes al mismo grupo
de personas, dentro de un intervalo de tiempo determinado. Su propósito
es verificar si el instrumento mantiene su precisión a lo largo del tiempo,
especialmente cuando mide variables que se espera que permanezcan
estables, como rasgos de personalidad, habilidades motrices o actitudes
generales (Cohen & Swerdlik, 2005).
Para calcular esta confiabilidad, se comparan las puntuaciones obtenidas en
ambas aplicaciones utilizando el coeficiente de correlación de Pearson. Un
valor alto en esta correlación indica que el instrumento tiene una buena
estabilidad temporal, lo cual es fundamental cuando se busca asegurar que
los cambios en los resultados se deben a verdaderas variaciones en la
variable medida, y no a errores del instrumento.
c) En relación con el contenido de la prueba (consistencia interna)
Se refiere a la coherencia entre los ítems de un instrumento, es decir, el
grado en que todos los ítems miden el mismo concepto o evento. Un
instrumento con alta consistencia interna significa que sus ítems
proporcionan información similar sobre la variable que se mide. (Reidl 2013).
Existen diversas técnicas para evaluar la consistencia interna de un
instrumento de medición, entre las que destacan pruebas paralelas, división
por mitades, métodos basados en la correlación entre ítems, etc.
2.3.2 Métodos
a) Test-Retest
El método Test-Retest es una técnica utilizada para evaluar la confiabilidad de un
instrumento, especialmente en aquellos con respuestas cerradas y sin escala fija.
Consiste en aplicar el mismo instrumento dos veces al mismo grupo de personas,
en diferentes momentos, y luego correlacionar los puntajes obtenidos en ambas
aplicaciones. El resultado de esta correlación se expresa como un coeficiente de
estabilidad, el cual indica el grado de consistencia o coherencia de las
puntuaciones a lo largo del tiempo.
Este método no es adecuado para pruebas de conocimiento, ya que los
participantes podrían aprender o memorizar respuestas entre una aplicación y
otra, lo que afectaría los resultados. Sin embargo, es especialmente útil y
pertinente para instrumentos que miden aptitudes físicas, atléticas o motoras,
donde se espera que las capacidades se mantengan relativamente estables
durante el periodo de evaluación. Así, un alto coeficiente de estabilidad reflejará
que el instrumento produce resultados fiables y consistentes en el tiempo.
b) Pruebas Paralelas
Martínez y March (2015, citado en ) sostienen que las pruebas paralelas permiten
estimar la confiabilidad de un instrumento de medición mediante la comparación
de dos versiones equivalentes. Estas versiones deben presentar características
similares en términos de nivel de medición y estructura. Si la correlación entre los
resultados de ambas versiones supera el umbral de 0,75, se puede considerar
que el instrumento posee una confiabilidad aceptable.
c) División por mitades(mitades partidas)
El método Hemitest o de división por mitades (Split-halves) es una técnica utilizada
para evaluar la confiabilidad interna de un instrumento de medición, consiste en
dividir el instrumento (que debe tener un número par de ítems y estar conformado
por respuestas cerradas) en dos subpruebas equivalentes: una que contiene los
ítems impares y otra con los pares. Posteriormente, se correlacionan los puntajes
obtenidos en ambas mitades, con el objetivo de determinar el grado de
coherencia interna del instrumento.
d) Homogeneidad de las preguntas o ítemes
Son técnicas que evalúan la consistencia interna de un instrumento, es decir, qué
tan coherentes son los ítems entre sí al medir un mismo constructo. A diferencia
de otros métodos, estos sólo requieren una única aplicación del instrumento a
una muestra piloto, lo que los hace prácticos y eficientes en la fase de validación.
El procedimiento consiste en aplicar una escala con puntuaciones donde los
participantes eligen entre diferentes alternativas de respuesta previamente
establecidas. Luego, se calculan coeficientes de consistencia interna, los cuales
toman valores dentro del intervalo de 0 a 1: un valor cercano a 0 indica
confiabilidad nula, mientras que un valor cercano a 1 representa confiabilidad
máxima o total. Estos coeficientes permiten seleccionar o eliminar ítems según su
grado de correlación con el conjunto, asegurando que todos aporten de manera
adecuada a la medición del constructo.
2.3.3 Técnicas o indicadores
a) Coeficiente de correlación r de Pearson
El coeficiente de correlación de Pearson (r) es una técnica estadística que
se emplea para medir la confiabilidad temporal de un instrumento,
específicamente mediante el método test-retest. Se aplica cuando los
datos son cuantitativos y tienen una relación lineal, permitiendo
comparar los resultados obtenidos en dos aplicaciones del mismo
instrumento a un mismo grupo de personas en momentos distintos.
Un valor de r cercano a +1 indica alta estabilidad, lo cual refleja que el
instrumento es confiable en el tiempo.
b) Correlación de Spearman-Brown
Es un indicador de confiabilidad interna, utilizado especialmente cuando
se aplica el método de división por mitades (split-half). Esta fórmula
ajusta la correlación obtenida entre dos mitades de un test (por
ejemplo, ítems pares e impares) para estimar la confiabilidad del
instrumento completo, la fórmula Spearman-Brown compensa el
hecho de que una mitad tiene menos ítems que el total, lo que podría
subestimar la confiabilidad real.
c) Coefiente de Rulon
El coeficiente de Rulon también mide la confiabilidad interna de un
instrumento, y se utiliza cuando se divide el test en dos mitades
iguales, a diferencia de otros métodos, el coeficiente de Rulon se
calcula a partir de la varianza de las diferencias entre las
puntuaciones obtenidas en ambas mitades del test. Si estas
diferencias son mínimas, se considera que los ítems son consistentes
entre sí, y por tanto, el instrumento es confiable.
d) Coeficiente de Guttman
También conocido como Lambda 4, es una medida de confiabilidad
interna que evalúa en qué grado los ítems de un test se relacionan
entre sí para medir un mismo constructo, a diferencia de otros
coeficientes, el de Guttman busca la división óptima del test en dos
partes que maximicen la correlación interna. Cuanto más alta sea la
correlación entre estas partes, mayor será la confiabilidad. Es
considerado un estimador más conservador y riguroso que otros
coeficientes como el alfa de Cronbach, especialmente útil en
investigaciones con fines académicos o psicométricos más exigentes.
e) Coeficiente Alfa de Cronbach
El coeficiente Alfa de Cronbach es uno de los indicadores más utilizados
para evaluar la consistencia interna de un instrumento de medición,
especialmente cuando este utiliza respuestas policotómicas, es decir,
con tres o más alternativas de respuesta. Es particularmente
apropiado para instrumentos construidos con escalas ordinales, como
la escala de Likert, Staple, diferencial semántico, entre otras.
Este coeficiente permite estimar el grado en que los ítems del instrumento
están relacionados entre sí y miden el mismo constructo. Sus valores
oscilan entre 0 y 1, donde un resultado cercano a 1 indica una alta
confiabilidad interna del instrumento, mientras que valores bajos
sugieren una escasa coherencia entre los ítems. En general, un valor
de 0.70 o superior se considera aceptable en investigaciones sociales
y educativas, lo que garantiza que el instrumento produce resultados
consistentes y fiables.
[Link]
f) Coeficiente de Kuder Richarson 20
Es un método utilizado para evaluar la consistencia interna de
instrumentos de medición que contienen respuestas cerradas
dicotómicas, es decir, con solo dos opciones posibles como
correcto/incorrecto, sí/no o verdadero/falso. Es especialmente útil en
pruebas objetivas, como exámenes de selección simple o opciones
múltiples, donde cada ítem tiene una única respuesta correcta.
Este coeficiente mide qué tan homogéneos son los ítems del instrumento,
es decir, si todos evalúan el mismo constructo. Al igual que otros
coeficientes de confiabilidad, sus valores oscilan entre 0 y 1, donde un
valor cercano a 1 indica alta confiabilidad. El KR20 se calcula a partir
de una sola aplicación del instrumento y considera tanto la dificultad
de los ítems como la varianza de las puntuaciones, lo que lo convierte
en una herramienta precisa para validar pruebas con ítems
dicotómicos.
2.4 Diferencia entre validez y confiabilidad
CARACTERÍSTICA VALIDEZ CONFIABILIDAD
Definición Es el grado en que un Es el grado en que un
instrumento mide lo que instrumento produce
realmente se quiere resultados estables y
medir. consistentes.
Importancia Nos ayuda a obtener Nos ayuda a obtener
información verdadera información segura y
sobre el tema. repetible.
Enfoque principal Exactitud del contenido Estabilidad y repetición
respecto a la variable de los resultados en el
de estudio. tiempo.
¿Qué pregunta ¿Estoy midiendo lo que ¿Estoy obteniendo los
responde? quiero? mismos resultados
cada vez?
Resultado si falla Se mide algo distinto a Se obtienen datos que
lo que se pretendía. cambian sin motivo
lógico.
Evaluación Mediante juicios de Mediante pruebas
expertos, análisis de piloto, alfa de
contenido o validación Cronbach, test-retest,
estadística. etc.
Tipo de error que Error de enfoque (medir Error de inestabilidad
evita otra variable sin darse (resultados diferentes
cuenta). sin cambios reales).
Importancia en la Asegura que los datos Asegura que los datos
investigación representen sean reproducibles y
correctamente la creíbles.
realidad estudiada.
Ejemplo práctico Un test de ansiedad Aplicar ese mismo test
con preguntas dos veces y obtener
directamente resultados similares.
relacionadas con
síntomas emocionales.
Relación entre ambas Un instrumento no Un instrumento puede
puede ser válido si no ser confiable sin ser
es confiable. válido.
3. Proceso de Validación de los Instrumento de Acopio de Datos
1.1 Etapa 1. Creación / Modificación
a) El juicio de Expertos; es el proceso mediante el cual algunos profesionales con
conocimiento teórico y/o experiencia en el manejo de las variables que se pretenden
estudiar en un trabajo de investigación ofrecen su opinión respecto a la estructura y
contenido de un instrumento de recolección de datos o medición. Estas opiniones
permiten al investigador hacer algunos ajustes a fin de que el instrumento esté
debidamente vinculado a la variable en estudio desde su definición conceptual. El Juicio
de expertos busca comprobar la coherencia entre los ítem o reactivos con los
indicadores; así como el sentido lógico entre los ítems.
a.1) Entre los principales métodos para llevarlo a cabo destacan:
• El Método de Agregados Individuales; no requiere de la reunión de todos los
jueces o expertos para la revisión del instrumento. Una vez recolectada la opinión de
los mismos en las llamadas ‘Fichas de validación de expertos’ el investigador debe
proceder con ayuda de algún procedimiento estadístico a calcular el promedio de
calificación por cada ítem y a partir de ello hacer los reajustes necesarios con base
en las sugerencias dadas.
• El Método Delphi; en un primer momento, cada experto responde de manera
individual y anónima a un cuestionario. Después se analizan las respuestas del
conjunto de expertos, se remite a cada uno la respuesta mediana obtenida, así como
el intervalo intercuartil para cada cuestión y se les pide que reconsideren su juicio
anterior, teniendo en cuenta estos datos.
• La Técnica Nominal Grupal; esta técnica es parecida al Método Delphi, su
diferencia radica en que los evaluadores pueden entablar el diálogo a fin de exponer
su respectiva información. Su éxito depende de la buena voluntad de los
evaluadores que participan y de la habilidad de quien cumple el rol de moderador.
• El método de Consenso Grupal; el consenso entre los evaluadores del
instrumento no deja de ser un procedimiento subjetivo y que forma parte de la fase
cualitativa de la validación de un instrumento. Ante esto es que puede surgir la
pregunta de si es o no suficiente para afirmar que un instrumento es válido, siendo la
respuesta un contundente NO, el juicio de expertos solo permite tener una opinión
favorable o no del instrumente que se pretende utilizar, pero esta opinión está
cagada de subjetivismo por parte de quienes los revisan.
1.2 Etapa 2. Validación Propiamente Dicha
a) La prueba piloto; posee ciertas características en el empleo de sus procedimientos,
y para su aplicación también el instrumento deberá tener las mismas condiciones que la
prueba piloto. Algunas de las características más relevantes son que deben ser factibles
y comprensibles para los sujetos de la investigación. Para Hernández Sampieri (2014),
la prueba piloto consiste: En administrar el instrumento a una pequeña muestra de
casos para probar su pertinencia y eficacia (incluyendo instrucciones), así como las
condiciones de la aplicación y los procedimientos involucrados.
b) Prueba de Consistencia Interna; suele realizarse cando se ha realizado una única
aplicación de la prueba piloto, ello ha motivado que en muchas instituciones y muchos
investigadores asuman que es suficiente para determinar la validez de un instrumento
en cuanto a su confiabilidad, pero aunque en apariencia eso sea correcto, los resultados
de esta prueba se fortalecen cuando se llevan a cabo pruebas posteriores para
comprobar su consistencia en aplicaciones posteriores y con relación a otros
instrumentos ya validados anteriormente.
c) Prueba de Test y Retest; Estudiar la estabilidad, que parte del indicio que todo test
es equivalente a sí mismo y el proceso requiere de dos aplicaciones que pudieran
realizarse en un mismo acto dividido en dos momentos, es decir, se aplica el
instrumento, se recoge y se aplica nuevamente, o se permite un lapso de tiempo corto
que no admita variaciones de importancia para la investigación entre las dos
aplicaciones.
d) Pruebas paralelas: estudian la equivalencia de las respuestas, implica construir dos
instrumentos en condiciones similares de nivel de medición y de estructuración para
medir las mismas cosas y correlacionar los resultados de ambos; en la medida en que
supere 0,75 puede considerarse una confiabilidad aceptable. La confiabilidad de formas
paralelas indica que el instrumento puede ser utilizado para el mismo grupo de personas
de manera inmediata y de acuerdo a los que fueron partícipes en el relevamiento de
datos.
[Link]ÓN DE INSTRUMENTOS SEGÚN EL ENFOQUE DE INVESTIGACIÓN
1.1 Cuantitativos
La validez en investigación cuantitativa es el grado en que un instrumento mide
realmente lo que pretende medir (Hernández Sampieri et al., 2021). Es un criterio
central para garantizar la calidad de los datos recolectados y la credibilidad de los
hallazgos.
1.1.1 Tipos y métodos de validez
A) Validez externa (transferibilidad). Corresponde a la aplicabilidad en otros
grupos. Moreira (citado en Corral et al., 2019) distingue los siguientes elementos a
incluir en el informe para garantizar ésta: aserciones empíricas, viñetas narrativas,
citas de las notas tomadas en el campo, citas extraídas de las entrevistas,
sinópticos de datos (tablas comparativas, mapas, tablas de frecuencia, otros),
comentarios interpretativos en las descripciones particulares y general (patrones),
discusión teórica e informe sobre la historia natural de la indagación realizada.
B) Validez de Constructo
üLa validez de constructo incluye tres etapas (Carmines y Zeller, 1991); sobre la
base de la revisión de la literatura, se establece y especifica la relación entre el
concepto variable medida por el instrumento y los demás conceptos incluidos en la
teoría, modelo teórico o hipótesis.
üSe asocian estadísticamente los conceptos y se analizan cuidadosamente las
correlaciones.
üSe interpreta la evidencia empírica de acuerdo con el nivel en el que se clarifica la
validez de constructo de una medición en particular.
El proceso de validación de un constructo está vinculado con la teoría
No es conveniente llevar a cabo tal validación, a menos que exista un marco
teórico que soporte la variable en relación con otras variables. Desde luego, no
es necesaria una teoría muy desarrollada, pero sí investigaciones que hayan
demostrado que los conceptos se asocian. Cuanto más elaborada y comprobada
se encuentre la teoría que apoya la hipótesis, la validación del constructo
arrojará mayor luz sobre la validez general de un instrumento de medición.
● Tenemos más confianza en la validez de constructo de una medición cuando
sus resultados se correlacionan significativamente con un mayor número de
mediciones de variables que, en teoría y de acuerdo con estudios
antecedentes, están relacionadas.
C) Validez Predictiva o de Criterio Externo o Empírica
Para Hernández, Fernández y Baptista (2011, citado en Almada, 2019), la validez de criterio
consiste en la “validez que se establece al correlacionar las puntuaciones resultantes de
aplicar el instrumento con las puntuaciones obtenidas de otro criterio externo que pretende
medir lo mismo”. (p. 202).
Por ejemplo:
Una prueba para determinar la capacidad gerencial de candidatos a ocupar altos puestos
ejecutivos se validaría comparando sus resultados con el desempeño posterior de los
ejecutivos en su trabajo regular. Un cuestionario para detectar las preferencias del
electorado por los distintos partidos contendientes y por sus candidatos en la época de las
campañas, puede validarse comparando sus resultados con los resultados finales y
definitivos de la elección.
4.1.2 Procedimientos para determinar la confiabilidad
La confiabilidad se asocia a la exactitud de la información aportada por los
instrumentos; es la capacidad del instrumento de arrojar datos (respuestas o
resultados) muy similares en ocasiones repetidas con una misma muestra y
condiciones similares.
Método Instrumentos Aplicación Coeficiente Estadístico
Método De respuestas se administra De estabilidad Correlación r
Test-Retest cerradas sin dos veces al coherencia de de Pearson
escala fija. mismo grupo y las puntuaciones
se correlacionan en el tiempo
los puntajes
obtenidos.
Confiabili Respuest Se De
dad del as administr estabilida
Correcto abiertas, a una d;
r como vez, hay coherenci
cuestiona 2 a en la
rios sin expertos correcció
opciones que n de los
y corrigen formatos.
pruebas (valoració
escritas n)
de Luego se
composic tabulan
ión o los
ensayo. puntajes
de ambas
correccio
nes
Hemitest contener Se De Correla
(Split- un estima la consisten ción de
halves) o número correlació cia puntaje
Método par de n entre interna s
común
ítems y los dos de directos
de
división ser de puntajes Spearma r de
por respuest de cada n-Brown Pearso
mitades as subtes (2 n y de
cerradas mitades), rangos
se mide ρ de
la Spearm
correlació an.
n del test
completo
Análisis respuest sólo una Alfa de Likert,
de a son aplicació Cronbach Staple,
homoge dicotómic n del . Diferen
neidad as o instrumen cial
de los
politómic to semánti
ítemes
as co y
otras
escalas
Elaboración propia
1.2 Cualitativos
“La validez en cualitativa no está dada por la cantidad de datos, sino por la
profundidad de los significados y la coherencia de la interpretación”
(Hernández Sampieri et al., (2021).
4.2.1Tipos de validación
a) Validez interna (valor de verdad, credibilidad)
Requiere lograr la validez de la observación, categorizando al máximo y definiendo
claramente las categorías a observar y la validez de los informantes se obtiene al
presentar los datos aportados a éstos para que corroboren su veracidad y corregir
posibles errores en el registro e interpretación de las respuestas. Para asegurar la
credibilidad, el investigador cualitativo necesita (Rojas de Escalona, 2014):
Elaboración propia, referencia Corral et al., (2022)
b) Validez de contenido, racional lógica
Meneses (2013, citado en Suarez, Varguillas y ronceros, 2022) señala que: la
evidencia de la validez de contenido hace referencia a la relación que existe entre los
ítems y lo que se pretende evaluar, prestando atención a la relevancia (que la
información que se pregunta esté directamente relacionada con lo que se pretende
medir); y a la representatividad de los ítems (las cuestiones que se realicen deben ser
una muestra adecuada de todo lo que se pretende medir) (Pág. 147).
Procedimiento: El más utilizado para la validez de contenido es el juicio de experto y
consiste en que cada uno de los evaluadores reciba en forma escrita insumos sobre la
investigación para que analice los ítems del instrumento.
A.1) Métodos:
Método de Agregados Individuales:
ØSe solicita individualmente a cada experto que evalúe los ítems del instrumento. Esta
evaluación comprende la relevancia, congruencia, relación con el marco teórico, claridad y
tendenciosidad en la redacción de los reactivos. Los expertos recibirán de forma escrita
información sobre el objetivo del instrumento, universo, muestra, operacionalización de
las variables. Además, debe recibir un instrumento de validación.
ØSe analizan cada uno de los instrumentos de validación para el diseño del instrumento.
Considerando los ítems con el 100% de evaluación favorable; eliminando los reactivos
que tengan 100% de evaluación desfavorables. Y los que tengan valoraciones parciales
deben ser revisados.
Método Delphi: Es un método sistemático de juicio de experto.
El procedimiento: Cada experto responde de manera individual al instrumento de
validación
ØSe analiza los instrumentos de todos los expertos y se le devuelve a cada evaluador las
repuestas medianas y el intervalo intercuartil y se le solicita que reconsideran su
evaluación.
ØSe repite varias veces el mismo procedimiento y el juicio que quede fuera del intervalo
Inter cuartil debe justificarse. La mediana se utiliza en vista de que se presume que las
puntuaciones de los evaluadores se distribuyen de forma asimétrica.
Técnica de Grupo Nominal:
Procedimiento:
● ØReunión de expertos en la cual cada uno de ellos, de manera individual, registren las
evaluaciones y las probabilidades de error para cada una de las preguntas
● ØCada evaluador señala a los demás expertos y se establecen las coincidencias
● ØCada experto, de manera individual y por escrito, puntúa y argumenta las
probabilidades de error para cada tarea/pregunta considerada
● ØLa evaluación final es la media aritmética del conjunto de las apreciaciones de los
expertos.
● Método del Consenso Grupal:
Procedimiento:
1. Reunión de los expertos y se les indica que evalúen los ítems.
2. Si los evaluadores no logran un consenso, puede intentarse un consenso
artificial recogiendo las estimaciones individuales y sintetizándolas
estadísticamente.
4.3.3 Procedimientos para determinar la confiabilidad:
Algunos investigadores prefieren referirse a ella como fiabilidad, o emplean términos como
auditabilidad o fidelidad. Se relaciona (Latorre, del Rincón & Arnal, 2014) con la consistencia
(grado en que se repetirían los resultados al replicar el estudio) y conviene verificar que los
procesos son aceptables (auditoría).
Referencias
a. [Link]
58ae17e3-11a9-4f4a-be08-ec7839528f01/content
pag 53
b. [Link]
c. Manual de validación [Link]
d. [Link]
e. [Link]
f. [Link]
[Link]
g.
[Link]
[Link]
h. [Link]
i. [Link]
j. [Link]
k. [Link]
l.
[Link]
ogas_de_Abuso/Articulos/[Link]
m. DOI: [Link]
n.
[Link]
ad/90/133/157?inline=1