Universidad Autónoma de Nuevo León
Facultad de Contaduría Pública y Administración
Campus Linares
Almacenes de Datos
Docente: Ramírez Cortinas José Guadalupe.
1.2 - Ev - Reporte de ingeniería de datos
Equipo 2
Grupo: DBl
Datos de la alumna:
• 2093614 González Rodríguez Dulce María
• 2180112 Hernández Moreno Pablo Iván
• 2093412 Loera Quintero María Fernanda
• 2180099 Pedraza Cortes Bryana Alejandra
• 2093773 Rodríguez García Nataly Danzel
• 2093730 Salazar Hernández Samara Alejandra
Fecha: 06 de marzo del 2025.
Página 1 de 5
REPORTE DE INGENIERÍA DE DATOS
Organización:
Elaborado por:
Fecha y hora de última actualización:
Autorizado por:
Fecha de autorización:
Contenido
Base de datos: «nombre de la base de datos» .................................................................................... 2
Tabla: «nombre de la tabla» ............................................................................................................ 2
Campo: «nombre del campo» ..................................................................................................... 2
Filtros aplicables .................................................................................................................................. 2
Tratamiento de datos ausentes ........................................................................................................... 2
Tratamiento de datos atípicos ............................................................................................................. 3
Instrucciones de uso del formato ........................................................................................................ 3
Página 2 de 5
Base de datos: «nombre de la base de datos»
Tabla: «nombre de la tabla»
A continuación, se describen las tareas de ingeniería de datos para cada uno de los campos de la
tabla.
Campo: «nombre del campo»
Nombre del campo Casas en Venta
Etiqueta Cavta
Tipo de dato: Entero
Especificación de
formato:
Tipo de uso: Categórico
Dato Literal
Formulación: N/A
Transformación
requerida:
Especificación de
dominio:
Primo
Llave foránea NO
Atributo de NO
coincidencia:
Unicidad NO
Acepta nulos NO
Filtros aplicables
ID del filtro Campos involucrados Especificación y condiciones
del filtro.
240000269 01/24/2015, 530000
3764500180 01/24/2015, 615000
4019300195 01/24/2015, 900000
9297300055 01/24/2015, 650000
Tratamiento de datos ausentes
ID del tratamiento Campos involucrados Estrategia de tratamiento de
datos ausentes
1023456789 5 Relleno con la mediana del conjunto de
datos.
2034567890 5 Sustitución por el promedio de valores
existentes.
3045678901 6 Uso de regresión para estimaciones de
valores faltantes.
4056789012 6 Aplicaciones de la última
observación valida (LOCF).
Página 3 de 5
Tratamiento de datos atípicos
ID del tratamiento Campos involucrados Estrategia de tratamiento de
datos atípicos
123059127 9 Desechar
4720000620 8 Desechar
587550340 7 Desechar
776600130 1 Desechar
Instrucciones de uso del formato
1. Variantes en cuanto al origen:
a. Si la información está en base de datos, se coloca el nombre de la base de datos, y
de las tablas, conforme al formato.
b. Si la información está en un MASTER, se coloca como base de datos MASTER, y
como tabla, MASTER.
2. En el área de campos, colocar (aplica uno por campo):
a. El nombre del «campo», en el título.
b. En la Etiqueta, colocar la etiqueta descriptiva corta del campo.
c. En Tipo de dato, colocar si es Entero, Flotante, Alfanumérico, Booleano,
Fecha/Hora, o Binario.
d. En especificación de formato, colocar la especificación de la máscara o
distribución que debe tener, de ser posible, usar expresiones regulares (regex).
e. En Tipo de uso, colocar si es de Identidad, Descriptivo, Categórico,
Temporal o de Valor .
f. En Dato, colocar si es Literal, o Calculado.
g. En Formulación, se anota la fórmula o cálculo que da origen al dato. Solo aplica
cuando en Dato se colocó Calculado.
h. En Transformación requerida, anotar si requiere alguna transformación especial.
Especificar en qué consiste la transformación (Ejemplos: pasar a mayúsculas,
eliminar caracteres especiales, pasar a formato aaaa/mm/dd, quitar o poner
decimales, pasar a porcentaje, etcétera).
i. En Especificación de dominio, anotar algunas especificaciones que indiquen los
valores válidos para el dato (Ejemplo: entero positivo consecutivo entre 1 y 10000;
fecha, no anterior al 01/01/2000 y no superior al día de hoy; cualquiera de estas
letras: A, B, C, o D; código de departamento registrado en catálogo de
departamentos, etcétera).
j. En Primo, anotar sí o no, dependiendo si el atributo es primo o no.
k. En Llave foránea, anotar sí o no, dependiendo si el atributo participa en una
llave foránea.
l. En Atributo de coincidencia, anotar el atributo de coincidencia al que refiere el
dato en la tabla fuerte. Solo aplica cuando Llave foránea es sí.
m. En Unicidad, anotar sí o no, dependiendo si el valor no admite repetidos.
n. En Acepta nulos, anotar sí o no, dependiendo si el valor admite nulos.
3. En el área de filtros aplicables:
Página 4 de 5
a. En Identificador del filtro se coloca un identificador ficticio como queremos
identificar al filtro. Debe ser un identificador único para cada filtro. Ejemplo:
FILTRO-01.
b. En Campos involucrados, se enumeran los campos que participan en el filtro.
Ejemplo: fecha_operacion, monto_operacion.
c. En Especificación y condiciones de filtro, se especifican los detalles del filtrado.
Ejemplo: Filtrar operaciones que hayan sido realizadas en el año seleccionado en
el dashboard; se verifica si el año de fecha_operacion concuerda con el año
seleccionado. Filtrar operaciones que estén dentro del rango de monto
seleccionado en el dashboard; se verifica que el monto_operacion es mayor o
igual al límite inferior del rango seleccionado, y es menor o igual al límite superior
del rango seleccionado.
4. En el área de tratamiento de datos ausentes:
a. En Identificador del tratamiento se coloca un identificador ficticio como queremos
identificar al tratamiento de datos. Debe ser un identificador único para cada
filtro. Ejemplo: AUSENTES-01.
b. En Campos involucrados, se anota el campo al que se le dará tratamiento de datos
ausentes. Ejemplo: cantidad_comprada.
c. En Especificación y condiciones de tratamiento de datos ausentes, se especifican
los detalles del tratamiento. Ejemplo: En caso de ausentes en
cantidad_comprada, sustituir con la mediana de la cantidad_comprada
aplicando los filtros que correspondan.
i. Aquí se puede elegir entre varias estrategias: eliminar observaciones con
ausentes; sustituir por datos estándar, condicionados o nulos; usar
modelos de máxima verosimilitud.
5. En el área de tratamiento de datos atípicos:
a. En Identificador del tratamiento se coloca un identificador ficticio como queremos
identificar al tratamiento de datos. Debe ser un identificador único para cada
filtro. Ejemplo: ATÍPICO-01.
b. En Campos involucrados, se anota el campo al que se le dará tratamiento de datos
atípicos. Ejemplo: cantidad_comprada.
c. En Especificación y condiciones de tratamiento de datos ausentes, se especifican
los detalles del tratamiento. Ejemplo: En caso de atípicos en
cantidad_comprada, filtrar, para que no se consideren en los cálculos.
i. Aquí se puede elegir entre varias estrategias: dejar los datos como están;
estandarizarlos para reducir su magnitud; limitarlos o truncarlos;
eliminarlos.
Página 5 de 5