0% encontró este documento útil (0 votos)
94 vistas45 páginas

Proceso de Codificación y Verificación de Datos

Este documento describe el proceso de procesamiento de datos, incluyendo la codificación de variables, la entrada de datos, y la verificación de datos. El objetivo principal es convertir la información recopilada en un formato que pueda ser analizado por computadora.

Cargado por

José Gómez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
94 vistas45 páginas

Proceso de Codificación y Verificación de Datos

Este documento describe el proceso de procesamiento de datos, incluyendo la codificación de variables, la entrada de datos, y la verificación de datos. El objetivo principal es convertir la información recopilada en un formato que pueda ser analizado por computadora.

Cargado por

José Gómez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PROCESAMIENTO

DE DATOS

Dr. Bernardo Cristóbal DÁMASO MATA


PROCESAMIENTO DE DATOS

El proceso de los datos incluye todos los pasos transcurren desde que se
recogen los datos hasta que estos están listos para ser analizados
mediante un programa informático.

La planificación de esta fase se debe realizar desde iniciado la recoleccion de


los datos.

El trabajo presuroso por demostrar alguna hipotesis sin la planificacion previa,


demorara debido a la permanente verificacion y correcciones.

El tipo de analisis a realizar va a depender de los objetivos, el tipo de estudio y


variables, asi como de la propia experiencia y conocimiento del investigador
de las distintas tecnicas.
PROCESAMIENTO DE DATOS

EL PROCESO DE DATOS

Es la conversión de información verbal o escrita en datos legibles por un


ordenador.
La planificación de una estrategia adecuada para el proceso de los datos
constaría de los siguientes puntos:
1. Creación de reglas de codificación.
2. Diseño de hojas de recogida de datos precodificados.
3. Elección del programa informático para la creación de un archivo de
datos que puedan ser transportable a los paquetes estadísticos mas
usuales.
4. Diseño del formato de la base de datos.
5. Elección de una estrategia de verificación de datos.
6. Especificación de los codigos y reglas de verificación en un libro de
códigos.
PROCESAMIENTO DE DATOS

CODIFICACION DE LAS VARIABLES

Se desarrollan reglas de codificación de las variables para su entrada en un


ordenador. Los programas estadísticos requieren un código por cada valor
posible de cada variable.

VARIABLES CATEGORICAS

Hipertensión
1= Si 2= No

Genero
1= Hombre 2= Mujer
PROCESAMIENTO DE DATOS

El numero de casillas dependera del numero de digitos de los codigos.

Es recomendable evitar el 0 como código:

Hipertensión 0=Si 1=No

Ya que muchos programas de base de datos y estadísticos no diferencian el 0


de una casilla en blanco que no han sido rellenada.

Se recomienda que los codigos sean consistentes siempre que sean posibles:

Todas preguntas con respuesta Si/No se le debe asignar siempre los


mismos códigos.
Parte de un cuestionario en un estudio sobre tabaquismo positivo y peso al nacimiento.

Exposicion en la casa al humo del tabaco de la pareja.

5. Esta usted casada o viviendo con un companero de forma estable?

No: 1 - Pasar a P15 Si:2

6. Durante este embarazo, ha fumado su marido o companero en alguna occasion?

No: 1 - Pasar a P15 Si:2

Si su respuesta es Si:

7. Que tipo de tabaco ha fumado?

1. Cigarrilos
2. Puros
3. Pipas
4. Mas de un tipo
(Especifique)

8. Cuantos cigarrillos ha fumado su marido o companero al dia o a la semana por


termino medio?

clgs/dia clgs/semana
PROCESAMIENTO DE DATOS

VARIABLES CONTINUAS

Las mediciones de datos continuos deben anotarse en las hojas de recogida


de datos con la misma exactitud con la que son medidas.

No se aconseja categorizar variables continuas o discretas cuando se recoge


la información, asignando un código a rangos de valores, ya que ello no
permitiría utilizarla como continua en el análisis o realizar una
categorización distinta.

Se debe asignar una casilla para cada digito y mostrar la posición del punto
decimal si es pertinente.

Se recomienda indicar en los formularios la unidad de medida a utilizar.


PROCESAMIENTO DE DATOS

Por ejemplo:

EDAD:
1 = 15 – 20.
2 = 21 – 25.
3 = 26 – 30.
etc.
Parte de un cuestionario de un estudio sobre factores de riesgo de bajo peso al nacimiento

Cual era el peso antes de quedarse embarazada? .


(Kg)

Cual es su talla? .
(cm)

Cual es la talla de su marido? .


(cm)

Cual fue la fecha de su ultima regla?


PROCESAMIENTO DE DATOS

Fechas
Se utiliza un orden: día, mes, ano.
PROCESAMIENTO DE DATOS

Datos no obtenidos.

• El individuo rehúsa aportar dicha información (“no contesta”).


• Cuando el individuo no sabe la información (“no sabe”).
• Cuando no se recogió la información por error u omisión o no disponible en
la fuente (datos desconocidos o missing).
• Cuando la pregunta no se aplica al sujeto.
PROCESAMIENTO DE DATOS

Datos no obtenidos.

• Se debe usar un código consistente para designar los datos no obtenidos.


• Se rellena cada casilla con un 9 (por ejemplo: genero desconocido = 9, talla
= 999).
• Para diferenciar los motivos de los datos no obtenidos, se pueden emplear
códigos diferentes.
Ejemplo de codificacion de datos no obtenidos

Ejemplo de codigos
Respuesta
1 digito 2 digitos 3 + digitos
No contesta 7 77 777
No sabe 8 88 888
Informacion desconocida 9 99 999
No aplicable 0 00 000
PROCESAMIENTO DE DATOS

Códigos no numéricos

• Nombres propios, direcciones, etc.


• De interés informático con fines organizativos (evaluación de tasas de
respuesta, seguimiento, etc.).
• La mayoría de las bases de datos permiten la creación de campos para la
introducción de datos alfanuméricos o caracteres de diversa longitud.
PROCESAMIENTO DE DATOS

Los códigos o valores numéricos asignados a cada una de las posibles


respuestas de una variable deben especificarse con detalle en un libro de
códigos como parte de los anexos del protocolo.
Ejemplo de codificacion de variables

Num. pregunta Nombre campo Codigos

5 Compan No: 1
Si: 2
Missing: 9

6 Compfum No: 1
Si: 2
Missing: 9
No aplicables en blanco

7 Tipotab Cigarrillos: 1
Puros: 2
Pipa: 3
Mas…: 4
Missing: 9
No aplicables en blanco

8 Numcigd 0 a 79: 0 - 79
>= 80: 80
No aplicables en blanco

8 bis Numcigs 0 a 79: 0 - 79


>= 80: 80
Missing: 9
No aplicables en blanco
PROCESAMIENTO DE DATOS

ENTRADA DE DATOS

Los datos, una vez codificados, deben ser introducidos en un archivo


informatizado.
La mayoría de programas estadísticos tienen sus propios sistemas para la
introducción directa de datos.
 SPSS
 EPIINFO
 SAS
 BMDP
 Epidata
 Epidat 3.1
 Stata
PROCESAMIENTO DE DATOS

ENTRADA DE DATOS

Archivo de datos importables por los programas estadísticos:


 ASCII (American Standard Code for Information
Inerchange).
 LOTUS 123

 Microsoft Excel

 dBASE III+

 dBASE IV

 REFLEX
PROCESAMIENTO DE DATOS

VERIFICACION DE DATOS

Identificar y corregir errores.


Se realiza en varias etapas durante la fase de recogida y proceso de datos.
 Consiste en la revisión y edición de los cuestionarios o formularios.
 La verificación de la entrada de datos en el ordenador
 Las verificaciones posteriores del archivo de datos según rangos,
consistencia, etc.
En base de datos muy grandes, se debe intentar corregir los errores mayores,
que influirían en los resultados estadísticos. Es prácticamente imposible
corregir todos los errores.
PROCESAMIENTO DE DATOS

Verificación previa a la entrada de datos

Los datos se registran inicialmente en formularios diseñados (un cuestionarios,


hoja de recogida de datos).
Revisión del instrumento de recolección de datos, evaluando si la escritura es
legible, detectar omisiones, si los filtros se han elegido de forma adecuada,
anotación correcta de los códigos, valores imposibles u otros errores que
se pueden corregir in situ, cuando el sujeto es asequible u la historia clínica
o archivo esta disponible.
PROCESAMIENTO DE DATOS

Verificación durante la entrada de datos

Emplear mecanismos para detectar errores de trascripción.


Tanto la entrada como la verificación concomitante de los datos es un fase
larga y tediosa , recomendándose realizarla en forma simultanea y no al
termino de finalizado la recolección.

◼ Un mecanismo de verificación es la DOBLE ENTRADA: introducir dos


veces cada uno de los registros con el fin de comparar ambas versiones y
detectar inconsistencias.
PROCESAMIENTO DE DATOS

Verificación durante la entrada de datos

◼ Alternativamente, los datos pueden introducirse dos veces como si se


tratara de variables adicionales para cada uno de los casos. El orden de
entrada de los datos debe ser idéntico y así la base de datos resultante
tendrá el mismo numero de casos pero doble numero de variables.
Entonces, la primera mitad de las variables se resta de la segunda mitad y
cualquier valor distinto de cero debe ser revisado.

◼ Revisión en voz alta con otra persona.

◼ Revisión visual con un formato impreso.


PROCESAMIENTO DE DATOS

Verificación tras la entrada de datos

Una vez introducido los datos podemos realizar una ultima fase de depuración
o verificación para identificar errores no detectados previamente.
Detectar datos fuera de rango así como inconsistencia entre las distintas
variables.
PROCESAMIENTO DE DATOS

Verificación según rango

Por ejemplo, con datos categóricos como:


1= Nunca ha fumado.
2= Ex fumador.
3= Fumador ocasional.
4= Fumador habitual.
9 o 0= Missing o no aplicable.
Sabremos que ninguna respuesta entre 5, 6, 7 u 8 es correcta.
PROCESAMIENTO DE DATOS

Verificación según rango

Con datos continuos, generalmente no se permite identificar precisamente los


limites del rango, debido a que muchas variables biológicas pueden
presentar valores muy extremos sin que dejen de ser plausibles.
◼ Pueden ser limitados por los criterios de inclusión.
◼ Limitados por criterios razonables. Debiendo corroborarse aquellos fuera
del rango, para mantenerlo en el banco de datos.
◼ Out – liers (son tomados correctamente) son valores extremos que pueden
indicar un posible error de diseño, medición o registro. Pueden tener gran
influencia en los resultados de los análisis, distorsionando el efecto de
interés.
PROCESAMIENTO DE DATOS

Verificación lógicas

Revisar los datos es mas complicado cuando los valores de una variable
dependen de los valores de otra variable.
Aquella información que solo se requiere en determinados sujetos: en un
estudio sobre dolor lumbar crónico, el numero de embarazos previos solo
se preguntara a las mujeres, por lo que en los hombres esta variable
aparecerá en blanco o con el código especifico para no aplicable.
PROCESAMIENTO DE DATOS

Verificación lógicas

Algunas variables muy relacionadas entre si, deben compararse para ver si
hay valores que, aunque estén dentro del rango , es poco probable que se
den juntos en un mismo caso.
◼ En un estudio de factores de riesgo de retardo de crecimiento intrauterino,
si recogemos el peso y la edad gestacional de los neonatos, va a ser muy
poco probable que un neonato de 30 semanas de gestación pese 3500 g.

Cuando se realiza mediciones repetidas, es conveniente que las comparemos,


para evaluar la presencia de valores ilógicos.
◼ Si en el mismo estudio referido se ha medido el peso de las embarazadas
en meses sucesivos, este peso debería ser creciente.
PROCESAMIENTO DE DATOS

Verificación lógicas

Esta fase de verificación se lleva a cabo con el propio programa estadístico,


fundamentalmente mediante tablas cruzadas y representaciones graficas
de las variables relacionadas.
Una vez detectado un error, deben consultarse las fuentes originales y
corregirse si es posible. En caso contrario debemos asignarle el código
elegido para los valores desconocidos.

LAS BASES DE DATOS DEBEN SER VERIFICADAS


ANTES DE REALIZAR EL ANALISIS
PROCESAMIENTO DE DATOS

DISEÑO DE UNA ESTRATEGIA DE ANALISIS DE DATOS

Que tipos de test estadístico debemos usar?


Por donde debemos empezar?

1. Explorar la distribución de cada variable.


2. Crear variables transformadas o derivadas.
3. Describir la muestra.
4. Examinar relaciones entre pares de variables.
5. Detectar y controlar factores de confusión o modificación del
efecto.
PROCESAMIENTO DE DATOS

DISEÑO DE UNA ESTRATEGIA DE ANALISIS DE DATOS

Se debe sistemáticamente realizar la parte descriptiva y exploratoria de los


datos, antes de realizar el análisis de la relación.

Esta fase, RUTINARIA y “poco interesante”, es fundamental para:


 conocer las peculiaridades y limitaciones de los datos,
 plantear los test estadísticos mas adecuados dependiendo del tipo y
distribución de la variables,
 detectar los posibles artefactos del análisis e
 interpretar adecuadamente los resultados.
PROCESAMIENTO DE DATOS

Exploración y transformación de las variables.

La descripción de cada una de las variables nos permitirá conocer, en las


variables categóricas, el numero de datos desconocidos y la distribución de
frecuencias según categorías, y en las variables continuas, su
aproximación a la distribución normal, los valores máximos y mínimos,
posibles outliers, valores desconocidos, medianas y desviación típica. Esta
exploración debe hacerse para todas las variables, y resulta útil apoyarse
en representaciones graficas, por ejemplo, histogramas de frecuencias.
PROCESAMIENTO DE DATOS

Exploración y transformación de las variables.

La transformación de variables puede tener como fin obtener variables


nominales u ordinales con un numero mas pequeño y manejable de
categorías.

Al examinar la distribución de las frecuencias de las variables categóricas


puede encontrarse que algunas de las categorías han sido elegidas por
muy pocos entrevistados, pudiendo en este caso combinarse para el
análisis con otras categorías siempre y cuando sean similares en cuanto a
su relación con la variable respuesta.

También se utiliza la transformación de variables para categorizar variables


continuas o discretas, para sumar o combinar variables y transformarlas en
un índice o escala, o bien en una medición promedio de varias mediciones
repetidas, para transformar fechas en tiempos, etc.
PROCESAMIENTO DE DATOS

Exploración y transformación de las variables.

Muchas de las transformaciones necesitan del apoyo de la exploración de los


datos para decidir puntos de corte o agrupación de categorías; sin
embargo, otras, como la construcción de índices o escalas compuestas,
deben estar previamente definidas y especificadas en el protocolo.

La exploración nos permite contrastar aquellas variables continuas que no


representan una distribución normal. Muchos test de contraste de hipótesis
y limites de confianza están basadas en la asunción de una distribución
normal. Existen diversas formas de transformar estas variables para que se
aproximen mas a la distribución normal, como, por ejemplo, las
transformaciones logarítmicas.
PROCESAMIENTO DE DATOS

Descripción de la muestra.

Una vez explorada cada variable y habiendo creado las variables derivadas y
las transformaciones pertinentes, podemos empezar a producir tablas para
describir los datos y examinar relaciones.

Crearemos mas tablas y gráficos de las que vayamos a usar finalmente.

Se aconseja:
 Iniciar con una tabla que describa el tipo de muestra que tenemos,
donde se recojan aquellas variables sociodemográficas como sexo,
socioeconómicos, etc.,
 Así como la distribución de las variables de exposición fundamentales y
de la variable respuesta.
PROCESAMIENTO DE DATOS

Descripción de la muestra.

Si el estudio tiene un componente descriptivo, puede requerir la estimación de


la incidencia o prevalencia de la enfermedad o condición de interés.
PROCESAMIENTO DE DATOS

Relaciones entre pares de variables.

Estudios Descriptivos
Estudios de morbilidad y mortalidad o las series de casos.

Estudios observacionales y en los experimentales


Se plantea de manera explicita comparaciones entre diferentes grupos o tipos
de observaciones.

Como podemos comparar estos datos, sobre todo si debemos


generalizar estos hallazgos?
PROCESAMIENTO DE DATOS

Relaciones entre pares de variables.

Los pares de variables que vamos a cruzar, lo cual vendrá determinado por los
objetivos de nuestro estudio y por la clasificación funcional de las variables.

Variable exposición Variable respuesta


fundamental
Nivel de cotinina en
Peso al nacimiento
saliva

Otras variables de
control
PROCESAMIENTO DE DATOS

Relaciones entre pares de variables.

La medida de asociación a utilizar (por ejemplo, coeficiente de correlación,


diferencia de medias, razón de tasas, odds ratio, etc.), dependerá del
diseño del estudio y la escala o tipo de variable (por ejemplo, continua,
categórica ordinal, etc.).
PROCESAMIENTO DE DATOS

Relaciones entre pares de variables.

El método de análisis (por ejemplo, análisis de la varianza, correlación de


Spearman, regresión logística) vendrá determinado por las escalas o tipos
de variables dependientes e independientes y por su distribución de
frecuencias (métodos paramétricos o no paramétricos).
Evaluacion de la asociacion entre pares de variables
Variable de respuesta
Variable de exposicion
Categorica Continua
Univariante Prueba t
Categorica Ji cuadrado Analisis de la varianza de
una via (ANOVA)

Continua Prueba t Correlacion


Analisis de la varianza de Regresion simple
una via (ANOVA)

Multivariante
Categorica Regresion logistica ANOVA de multiples vias

Continua Regresion logistica Correlacion parcial


Regresion multiple

Ambas Regresion logistica Analisis de la covarianza


(ANCOVA)
Regresion multiple
PROCESAMIENTO DE DATOS

Relaciones entre pares de variables.

El enfoque del análisis estadístico, basado en la estimación (intervalo de


confianza) o el contraste de hipótesis (valores de p), siendo recomendable
utilizar, siempre que sea posible, ambos enfoques.
PROCESAMIENTO DE DATOS

Confusión o modificación del efecto.

Aunque un estudio se centre en una variable de exposición o intervención


única, es fundamental que podamos controlar los posibles efectos de
confusión o modificación producidos por otras variables.

Se debe realizar un estudio estratificado o análisis multivariante (por


ejemplo regresión lineal múltiple, regresión logística, etc.), cuya
configuración dependerá de:
 los objetivos del estudio,
 la clasificación funcional de las variables,
 el tipo de diseño y
 el tipo de variables.
PROCESAMIENTO DE DATOS

Confusión o modificación del efecto.

A la hora de seleccionar las variables que forman parte del modelo


multivariante definitivo, se debe también decidir que algoritmo o sistema de
selección de variables vamos a utilizar (por ejemplo, algoritmos
automáticos como el stepwise, el criterio de la modificación del coeficiente
del factor de exposición principal, etc.).
Pasos para el analisis de datos.
Exploracion de cada variable Verificacion segun rango
Distribucion variables continuas
Apoyo para la transformacion de variables

Transformacion de variables Fusion de categorias; categorizacion de continuas


Creacion de indices o escalas
Transformacion variables no normales

Descripcion de la muestra Descripcion de los sujetos del estudio segun


variables socio-demograficas y niveles de
exposicion. Estimacion de incidencia y pre-
valencia.

Relacion entre pares de variables Analisis simple: estimacion de la magnitud y


patron de la asociacion. Contrastes de
hipotesis.

Confusion o modificacion del Analisis multivariante: detectar y controlar


efecto efectos de confusion e interaccion.

También podría gustarte