PROCESAMIENTO
DE DATOS
Dr. Bernardo Cristóbal DÁMASO MATA
PROCESAMIENTO DE DATOS
El proceso de los datos incluye todos los pasos transcurren desde que se
recogen los datos hasta que estos están listos para ser analizados
mediante un programa informático.
La planificación de esta fase se debe realizar desde iniciado la recoleccion de
los datos.
El trabajo presuroso por demostrar alguna hipotesis sin la planificacion previa,
demorara debido a la permanente verificacion y correcciones.
El tipo de analisis a realizar va a depender de los objetivos, el tipo de estudio y
variables, asi como de la propia experiencia y conocimiento del investigador
de las distintas tecnicas.
PROCESAMIENTO DE DATOS
EL PROCESO DE DATOS
Es la conversión de información verbal o escrita en datos legibles por un
ordenador.
La planificación de una estrategia adecuada para el proceso de los datos
constaría de los siguientes puntos:
1. Creación de reglas de codificación.
2. Diseño de hojas de recogida de datos precodificados.
3. Elección del programa informático para la creación de un archivo de
datos que puedan ser transportable a los paquetes estadísticos mas
usuales.
4. Diseño del formato de la base de datos.
5. Elección de una estrategia de verificación de datos.
6. Especificación de los codigos y reglas de verificación en un libro de
códigos.
PROCESAMIENTO DE DATOS
CODIFICACION DE LAS VARIABLES
Se desarrollan reglas de codificación de las variables para su entrada en un
ordenador. Los programas estadísticos requieren un código por cada valor
posible de cada variable.
VARIABLES CATEGORICAS
Hipertensión
1= Si 2= No
Genero
1= Hombre 2= Mujer
PROCESAMIENTO DE DATOS
El numero de casillas dependera del numero de digitos de los codigos.
Es recomendable evitar el 0 como código:
Hipertensión 0=Si 1=No
Ya que muchos programas de base de datos y estadísticos no diferencian el 0
de una casilla en blanco que no han sido rellenada.
Se recomienda que los codigos sean consistentes siempre que sean posibles:
Todas preguntas con respuesta Si/No se le debe asignar siempre los
mismos códigos.
Parte de un cuestionario en un estudio sobre tabaquismo positivo y peso al nacimiento.
Exposicion en la casa al humo del tabaco de la pareja.
5. Esta usted casada o viviendo con un companero de forma estable?
No: 1 - Pasar a P15 Si:2
6. Durante este embarazo, ha fumado su marido o companero en alguna occasion?
No: 1 - Pasar a P15 Si:2
Si su respuesta es Si:
7. Que tipo de tabaco ha fumado?
1. Cigarrilos
2. Puros
3. Pipas
4. Mas de un tipo
(Especifique)
8. Cuantos cigarrillos ha fumado su marido o companero al dia o a la semana por
termino medio?
clgs/dia clgs/semana
PROCESAMIENTO DE DATOS
VARIABLES CONTINUAS
Las mediciones de datos continuos deben anotarse en las hojas de recogida
de datos con la misma exactitud con la que son medidas.
No se aconseja categorizar variables continuas o discretas cuando se recoge
la información, asignando un código a rangos de valores, ya que ello no
permitiría utilizarla como continua en el análisis o realizar una
categorización distinta.
Se debe asignar una casilla para cada digito y mostrar la posición del punto
decimal si es pertinente.
Se recomienda indicar en los formularios la unidad de medida a utilizar.
PROCESAMIENTO DE DATOS
Por ejemplo:
EDAD:
1 = 15 – 20.
2 = 21 – 25.
3 = 26 – 30.
etc.
Parte de un cuestionario de un estudio sobre factores de riesgo de bajo peso al nacimiento
Cual era el peso antes de quedarse embarazada? .
(Kg)
Cual es su talla? .
(cm)
Cual es la talla de su marido? .
(cm)
Cual fue la fecha de su ultima regla?
PROCESAMIENTO DE DATOS
Fechas
Se utiliza un orden: día, mes, ano.
PROCESAMIENTO DE DATOS
Datos no obtenidos.
• El individuo rehúsa aportar dicha información (“no contesta”).
• Cuando el individuo no sabe la información (“no sabe”).
• Cuando no se recogió la información por error u omisión o no disponible en
la fuente (datos desconocidos o missing).
• Cuando la pregunta no se aplica al sujeto.
PROCESAMIENTO DE DATOS
Datos no obtenidos.
• Se debe usar un código consistente para designar los datos no obtenidos.
• Se rellena cada casilla con un 9 (por ejemplo: genero desconocido = 9, talla
= 999).
• Para diferenciar los motivos de los datos no obtenidos, se pueden emplear
códigos diferentes.
Ejemplo de codificacion de datos no obtenidos
Ejemplo de codigos
Respuesta
1 digito 2 digitos 3 + digitos
No contesta 7 77 777
No sabe 8 88 888
Informacion desconocida 9 99 999
No aplicable 0 00 000
PROCESAMIENTO DE DATOS
Códigos no numéricos
• Nombres propios, direcciones, etc.
• De interés informático con fines organizativos (evaluación de tasas de
respuesta, seguimiento, etc.).
• La mayoría de las bases de datos permiten la creación de campos para la
introducción de datos alfanuméricos o caracteres de diversa longitud.
PROCESAMIENTO DE DATOS
Los códigos o valores numéricos asignados a cada una de las posibles
respuestas de una variable deben especificarse con detalle en un libro de
códigos como parte de los anexos del protocolo.
Ejemplo de codificacion de variables
Num. pregunta Nombre campo Codigos
5 Compan No: 1
Si: 2
Missing: 9
6 Compfum No: 1
Si: 2
Missing: 9
No aplicables en blanco
7 Tipotab Cigarrillos: 1
Puros: 2
Pipa: 3
Mas…: 4
Missing: 9
No aplicables en blanco
8 Numcigd 0 a 79: 0 - 79
>= 80: 80
No aplicables en blanco
8 bis Numcigs 0 a 79: 0 - 79
>= 80: 80
Missing: 9
No aplicables en blanco
PROCESAMIENTO DE DATOS
ENTRADA DE DATOS
Los datos, una vez codificados, deben ser introducidos en un archivo
informatizado.
La mayoría de programas estadísticos tienen sus propios sistemas para la
introducción directa de datos.
SPSS
EPIINFO
SAS
BMDP
Epidata
Epidat 3.1
Stata
PROCESAMIENTO DE DATOS
ENTRADA DE DATOS
Archivo de datos importables por los programas estadísticos:
ASCII (American Standard Code for Information
Inerchange).
LOTUS 123
Microsoft Excel
dBASE III+
dBASE IV
REFLEX
PROCESAMIENTO DE DATOS
VERIFICACION DE DATOS
Identificar y corregir errores.
Se realiza en varias etapas durante la fase de recogida y proceso de datos.
Consiste en la revisión y edición de los cuestionarios o formularios.
La verificación de la entrada de datos en el ordenador
Las verificaciones posteriores del archivo de datos según rangos,
consistencia, etc.
En base de datos muy grandes, se debe intentar corregir los errores mayores,
que influirían en los resultados estadísticos. Es prácticamente imposible
corregir todos los errores.
PROCESAMIENTO DE DATOS
Verificación previa a la entrada de datos
Los datos se registran inicialmente en formularios diseñados (un cuestionarios,
hoja de recogida de datos).
Revisión del instrumento de recolección de datos, evaluando si la escritura es
legible, detectar omisiones, si los filtros se han elegido de forma adecuada,
anotación correcta de los códigos, valores imposibles u otros errores que
se pueden corregir in situ, cuando el sujeto es asequible u la historia clínica
o archivo esta disponible.
PROCESAMIENTO DE DATOS
Verificación durante la entrada de datos
Emplear mecanismos para detectar errores de trascripción.
Tanto la entrada como la verificación concomitante de los datos es un fase
larga y tediosa , recomendándose realizarla en forma simultanea y no al
termino de finalizado la recolección.
◼ Un mecanismo de verificación es la DOBLE ENTRADA: introducir dos
veces cada uno de los registros con el fin de comparar ambas versiones y
detectar inconsistencias.
PROCESAMIENTO DE DATOS
Verificación durante la entrada de datos
◼ Alternativamente, los datos pueden introducirse dos veces como si se
tratara de variables adicionales para cada uno de los casos. El orden de
entrada de los datos debe ser idéntico y así la base de datos resultante
tendrá el mismo numero de casos pero doble numero de variables.
Entonces, la primera mitad de las variables se resta de la segunda mitad y
cualquier valor distinto de cero debe ser revisado.
◼ Revisión en voz alta con otra persona.
◼ Revisión visual con un formato impreso.
PROCESAMIENTO DE DATOS
Verificación tras la entrada de datos
Una vez introducido los datos podemos realizar una ultima fase de depuración
o verificación para identificar errores no detectados previamente.
Detectar datos fuera de rango así como inconsistencia entre las distintas
variables.
PROCESAMIENTO DE DATOS
Verificación según rango
Por ejemplo, con datos categóricos como:
1= Nunca ha fumado.
2= Ex fumador.
3= Fumador ocasional.
4= Fumador habitual.
9 o 0= Missing o no aplicable.
Sabremos que ninguna respuesta entre 5, 6, 7 u 8 es correcta.
PROCESAMIENTO DE DATOS
Verificación según rango
Con datos continuos, generalmente no se permite identificar precisamente los
limites del rango, debido a que muchas variables biológicas pueden
presentar valores muy extremos sin que dejen de ser plausibles.
◼ Pueden ser limitados por los criterios de inclusión.
◼ Limitados por criterios razonables. Debiendo corroborarse aquellos fuera
del rango, para mantenerlo en el banco de datos.
◼ Out – liers (son tomados correctamente) son valores extremos que pueden
indicar un posible error de diseño, medición o registro. Pueden tener gran
influencia en los resultados de los análisis, distorsionando el efecto de
interés.
PROCESAMIENTO DE DATOS
Verificación lógicas
Revisar los datos es mas complicado cuando los valores de una variable
dependen de los valores de otra variable.
Aquella información que solo se requiere en determinados sujetos: en un
estudio sobre dolor lumbar crónico, el numero de embarazos previos solo
se preguntara a las mujeres, por lo que en los hombres esta variable
aparecerá en blanco o con el código especifico para no aplicable.
PROCESAMIENTO DE DATOS
Verificación lógicas
Algunas variables muy relacionadas entre si, deben compararse para ver si
hay valores que, aunque estén dentro del rango , es poco probable que se
den juntos en un mismo caso.
◼ En un estudio de factores de riesgo de retardo de crecimiento intrauterino,
si recogemos el peso y la edad gestacional de los neonatos, va a ser muy
poco probable que un neonato de 30 semanas de gestación pese 3500 g.
Cuando se realiza mediciones repetidas, es conveniente que las comparemos,
para evaluar la presencia de valores ilógicos.
◼ Si en el mismo estudio referido se ha medido el peso de las embarazadas
en meses sucesivos, este peso debería ser creciente.
PROCESAMIENTO DE DATOS
Verificación lógicas
Esta fase de verificación se lleva a cabo con el propio programa estadístico,
fundamentalmente mediante tablas cruzadas y representaciones graficas
de las variables relacionadas.
Una vez detectado un error, deben consultarse las fuentes originales y
corregirse si es posible. En caso contrario debemos asignarle el código
elegido para los valores desconocidos.
LAS BASES DE DATOS DEBEN SER VERIFICADAS
ANTES DE REALIZAR EL ANALISIS
PROCESAMIENTO DE DATOS
DISEÑO DE UNA ESTRATEGIA DE ANALISIS DE DATOS
Que tipos de test estadístico debemos usar?
Por donde debemos empezar?
1. Explorar la distribución de cada variable.
2. Crear variables transformadas o derivadas.
3. Describir la muestra.
4. Examinar relaciones entre pares de variables.
5. Detectar y controlar factores de confusión o modificación del
efecto.
PROCESAMIENTO DE DATOS
DISEÑO DE UNA ESTRATEGIA DE ANALISIS DE DATOS
Se debe sistemáticamente realizar la parte descriptiva y exploratoria de los
datos, antes de realizar el análisis de la relación.
Esta fase, RUTINARIA y “poco interesante”, es fundamental para:
conocer las peculiaridades y limitaciones de los datos,
plantear los test estadísticos mas adecuados dependiendo del tipo y
distribución de la variables,
detectar los posibles artefactos del análisis e
interpretar adecuadamente los resultados.
PROCESAMIENTO DE DATOS
Exploración y transformación de las variables.
La descripción de cada una de las variables nos permitirá conocer, en las
variables categóricas, el numero de datos desconocidos y la distribución de
frecuencias según categorías, y en las variables continuas, su
aproximación a la distribución normal, los valores máximos y mínimos,
posibles outliers, valores desconocidos, medianas y desviación típica. Esta
exploración debe hacerse para todas las variables, y resulta útil apoyarse
en representaciones graficas, por ejemplo, histogramas de frecuencias.
PROCESAMIENTO DE DATOS
Exploración y transformación de las variables.
La transformación de variables puede tener como fin obtener variables
nominales u ordinales con un numero mas pequeño y manejable de
categorías.
Al examinar la distribución de las frecuencias de las variables categóricas
puede encontrarse que algunas de las categorías han sido elegidas por
muy pocos entrevistados, pudiendo en este caso combinarse para el
análisis con otras categorías siempre y cuando sean similares en cuanto a
su relación con la variable respuesta.
También se utiliza la transformación de variables para categorizar variables
continuas o discretas, para sumar o combinar variables y transformarlas en
un índice o escala, o bien en una medición promedio de varias mediciones
repetidas, para transformar fechas en tiempos, etc.
PROCESAMIENTO DE DATOS
Exploración y transformación de las variables.
Muchas de las transformaciones necesitan del apoyo de la exploración de los
datos para decidir puntos de corte o agrupación de categorías; sin
embargo, otras, como la construcción de índices o escalas compuestas,
deben estar previamente definidas y especificadas en el protocolo.
La exploración nos permite contrastar aquellas variables continuas que no
representan una distribución normal. Muchos test de contraste de hipótesis
y limites de confianza están basadas en la asunción de una distribución
normal. Existen diversas formas de transformar estas variables para que se
aproximen mas a la distribución normal, como, por ejemplo, las
transformaciones logarítmicas.
PROCESAMIENTO DE DATOS
Descripción de la muestra.
Una vez explorada cada variable y habiendo creado las variables derivadas y
las transformaciones pertinentes, podemos empezar a producir tablas para
describir los datos y examinar relaciones.
Crearemos mas tablas y gráficos de las que vayamos a usar finalmente.
Se aconseja:
Iniciar con una tabla que describa el tipo de muestra que tenemos,
donde se recojan aquellas variables sociodemográficas como sexo,
socioeconómicos, etc.,
Así como la distribución de las variables de exposición fundamentales y
de la variable respuesta.
PROCESAMIENTO DE DATOS
Descripción de la muestra.
Si el estudio tiene un componente descriptivo, puede requerir la estimación de
la incidencia o prevalencia de la enfermedad o condición de interés.
PROCESAMIENTO DE DATOS
Relaciones entre pares de variables.
Estudios Descriptivos
Estudios de morbilidad y mortalidad o las series de casos.
Estudios observacionales y en los experimentales
Se plantea de manera explicita comparaciones entre diferentes grupos o tipos
de observaciones.
Como podemos comparar estos datos, sobre todo si debemos
generalizar estos hallazgos?
PROCESAMIENTO DE DATOS
Relaciones entre pares de variables.
Los pares de variables que vamos a cruzar, lo cual vendrá determinado por los
objetivos de nuestro estudio y por la clasificación funcional de las variables.
Variable exposición Variable respuesta
fundamental
Nivel de cotinina en
Peso al nacimiento
saliva
Otras variables de
control
PROCESAMIENTO DE DATOS
Relaciones entre pares de variables.
La medida de asociación a utilizar (por ejemplo, coeficiente de correlación,
diferencia de medias, razón de tasas, odds ratio, etc.), dependerá del
diseño del estudio y la escala o tipo de variable (por ejemplo, continua,
categórica ordinal, etc.).
PROCESAMIENTO DE DATOS
Relaciones entre pares de variables.
El método de análisis (por ejemplo, análisis de la varianza, correlación de
Spearman, regresión logística) vendrá determinado por las escalas o tipos
de variables dependientes e independientes y por su distribución de
frecuencias (métodos paramétricos o no paramétricos).
Evaluacion de la asociacion entre pares de variables
Variable de respuesta
Variable de exposicion
Categorica Continua
Univariante Prueba t
Categorica Ji cuadrado Analisis de la varianza de
una via (ANOVA)
Continua Prueba t Correlacion
Analisis de la varianza de Regresion simple
una via (ANOVA)
Multivariante
Categorica Regresion logistica ANOVA de multiples vias
Continua Regresion logistica Correlacion parcial
Regresion multiple
Ambas Regresion logistica Analisis de la covarianza
(ANCOVA)
Regresion multiple
PROCESAMIENTO DE DATOS
Relaciones entre pares de variables.
El enfoque del análisis estadístico, basado en la estimación (intervalo de
confianza) o el contraste de hipótesis (valores de p), siendo recomendable
utilizar, siempre que sea posible, ambos enfoques.
PROCESAMIENTO DE DATOS
Confusión o modificación del efecto.
Aunque un estudio se centre en una variable de exposición o intervención
única, es fundamental que podamos controlar los posibles efectos de
confusión o modificación producidos por otras variables.
Se debe realizar un estudio estratificado o análisis multivariante (por
ejemplo regresión lineal múltiple, regresión logística, etc.), cuya
configuración dependerá de:
los objetivos del estudio,
la clasificación funcional de las variables,
el tipo de diseño y
el tipo de variables.
PROCESAMIENTO DE DATOS
Confusión o modificación del efecto.
A la hora de seleccionar las variables que forman parte del modelo
multivariante definitivo, se debe también decidir que algoritmo o sistema de
selección de variables vamos a utilizar (por ejemplo, algoritmos
automáticos como el stepwise, el criterio de la modificación del coeficiente
del factor de exposición principal, etc.).
Pasos para el analisis de datos.
Exploracion de cada variable Verificacion segun rango
Distribucion variables continuas
Apoyo para la transformacion de variables
Transformacion de variables Fusion de categorias; categorizacion de continuas
Creacion de indices o escalas
Transformacion variables no normales
Descripcion de la muestra Descripcion de los sujetos del estudio segun
variables socio-demograficas y niveles de
exposicion. Estimacion de incidencia y pre-
valencia.
Relacion entre pares de variables Analisis simple: estimacion de la magnitud y
patron de la asociacion. Contrastes de
hipotesis.
Confusion o modificacion del Analisis multivariante: detectar y controlar
efecto efectos de confusion e interaccion.