0% encontró este documento útil (0 votos)
181 vistas33 páginas

ETL

Este documento introduce el concepto de ETL (extracción, transformación y carga) para recopilar y preparar datos de varios orígenes y formatos antes de cargarlos en un almacén de datos de destino. Explica que la limpieza de datos es una etapa previa importante para identificar anomalías. También describe herramientas como Power Query que permiten extraer, transformar y cargar datos, así como consideraciones para realizar procesos ETL.

Cargado por

Jose Lopez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
181 vistas33 páginas

ETL

Este documento introduce el concepto de ETL (extracción, transformación y carga) para recopilar y preparar datos de varios orígenes y formatos antes de cargarlos en un almacén de datos de destino. Explica que la limpieza de datos es una etapa previa importante para identificar anomalías. También describe herramientas como Power Query que permiten extraer, transformar y cargar datos, así como consideraciones para realizar procesos ETL.

Cargado por

Jose Lopez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Intriducción a ETL

Juan Luis Montero


Motivación
Un problema habitual al que se enfrentan las organizaciones es cómo recopilar datos de varios
orígenes, en varios formatos. A continuación, tendrá que moverlos a uno o varios almacenes de
datos. Es posible que el destino no sea el mismo tipo de almacén de datos que el origen. A menudo el
formato es diferente, o bien es necesario dar forma a los datos o limpiarlos antes de cargarlos en el
destino final.
Definición
Un Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar
datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los
carga en un almacén de datos de destino.
ETL
Limpieza de datos
La limpieza de datos se considera una etapa previa y separada a los procesos ETL, lo que no significa
que su importancia sea menor.

Este proceso consiste en identificar anomalía en la data que podría lazar información errónea en la
presentación de los resultado.
Limpieza de datos
•Aplicar reglas de unificación de datos. Por ejemplo, poner en la fila correspondiente al sexo la misma
letra identificativa, como podría ser “M” para masculino y “F” para femenino. En este caso, también se
tendrían que identificar o corregir posibles errores, como que algún usuario haya puesto la “M” como
mujer.

•Validaciones de completitud. Como por ejemplo, comprobar que en todos los registros de datos de los
clientes de un banco esté introducida la dirección postal completa, saltando una alarma si falta alguno.

•Estandarización de datos. El objetivo es que todos los datos del mismo tipo estén introducidos de
idéntica forma. Un ejemplo sería el DNI con la letra final de identificación fiscal junto a los números y
sin guión de separación.
Modelo de datos
Un modelo de datos es un lenguaje orientado a hablar de una base de datos. Típicamente un modelo
de datos permite describir:

•Las estructura de datos de la base: El tipo de los datos que hay en la base y la forma en que se
relacionan.
•Las restricciones de integridad: Un conjunto de condiciones que deben cumplir los datos para reflejar
la realidad deseada.

•Operaciones de manipulación de los datos: típicamente, operaciones de agregado, borrado,


modificación y recuperación de los datos de la base.
•.
Modelo de negocio
Un modelo de negocios es un instrumento que permite tener claridad en el modo por el cual se ofrece
una solución a una necesidad del mercado. Estos modelos tienen que ser claros y definir las
estrategias que deben emplearse en la búsqueda de los objetivos de un negocio. A través de un
modelo de negocios se debe distinguir cuál es el valor de un producto, qué se necesita para insertarlo
en el mercado y a qué tipo de clientes se venderá.
Importancia del ETL
Luego de conocer la regla del negocio y el modelo surge la necesidad de contar con información que
no permita tomar dicciones oportuna y reduce el tiempo de atención de la información necesaria.

Hecho que se traduce en guanacias significativa para el negocio.


Heramienta para ETL
• Power Query.
• Power BI.
• R.
• Python.
• SQL.
• Entre otros.
Power Query
(conocido como Obtener & transformar en Excel), puede importar datos externos o conectarse a ellos
y darles forma, por ejemplo, quitar una columna, cambiar un tipo de datos o combinar tablas de
maneras que satisfagan sus necesidades
Editor Power Query
(conocido como Obtener & transformar en Excel), puede importar datos externos o conectarse a ellos
y darles forma, por ejemplo, quitar una columna, cambiar un tipo de datos o combinar tablas de
maneras que satisfagan sus necesidades
Extracción de datos en Power Query
El primer paso se podría decir el mas importante la el
proceso de carga de datos. Power Query te permite
cargar datos de diferente fuente tales como:

• Archivos
• Base de datos
• Servicios online
• Otra fuente
Extracción de datos en Power Query
Diferente archivos que podemos cargar:

• Libro de Excel
• Texto/csv
• XML
• JSON
• PDF
• Carpetas
• Carpetas dentro de SharePoint
Transformación de datos en Power Query
La transformación de los en identificar aquella diferencia entre los diferente conjuntos de datos y aplicar
método para hacer coincidir los diferente tipos y estructura de los conjunto de datos con el fin de poder
estandarizar los conjuntos de datos.
Transformación de datos en Power Query

En el menú de inicio tenemos funciones para:


• Selección de columna.
• Eliminar o agregar filas y columna.
• Cambiar el tipo de dato.
• Efectuar la diferente operaciones con tabla.
Transformación de datos en Power Query

En el menú de Transformación tenemos funciones mas relacionada a la modificación del dato en si:
• Reemplazar valores
• Crear varias columnas a considerando un separador dentro de otras
Transformación de datos en Power Query

Una vez ejecutamos cualquier transformación podremos visualizar la sentencia de power Query en la
barra de entrada, la misma puede ser modificada o digitada directamente.
Transformación de datos en Power Query

Por cada acción que realicemos con los dato en la visualización de


configuración de query se irán generando paso los cuales pueden ser
modificado eliminado o reordenado.
Transformación de datos en Power Query

En el menú de query podremos visualizar e interactuar con los diferente data


se que hemos extraído.
Transformación de datos en Power Query

En el centro de la ventana podremos visualizar la vista resumida del conjunto


de dato seleccionado.
carga de datos en Power Query

Desde el menú de inicio podremos cargar los datos trasformado en la opción cerrar y cargar, por
defecto los datos se cargan en hoja una por cada tabla
carga de datos en Power Query
En la pestaña dato en la opción consulta y conexiones
podremos activar la pestaña de configuración de las
consultas
carga de datos en Power Query
Al hacer clip derecho sobre una de las consultas existente podremos visualizar la
diferente opciones que no permite Excel.
carga de datos en Power Query
Nos interesa resaltar la opción de “cargar en” esta opción nos permite cargar
los datos en una tabla, tabla dinámica, grafico dinámico o solo dejar la
conexión a los datos.
Consideraciones a tener en cuenta
Para poder realizar los ETL es necesario los siguiente conocimiento:
• Manejo de archivo.
• Extensiones de archivo.
• Conexiones a base de
Ejercicio de carga de datos
• Cargue el archivo DGII_RNC.TXT
• Cargue el archivo proveedores.csv
• Crear una conexión web a https://api.dgcp.gob.do/opendata/contratos/contratos.xlsx
• Crear una conexión web a https://api.dgcp.gob.do/opendata/procesos/procesos.csv
Ejercicio de limpieza de datos de datos
• Agregar los encabezados al data set de DGII_RNC Encabezados

• Validar la estructura de y limpiar los datos


Ejercicio de limpieza de datos
• Agregar los encabezados al data set de DGII_RNC
• Validar la estructura de y limpiar los datos
• Validar que los datos de queden bien organidado
Ejercicio transformación de datos
• Relacionar la tabla para responder las siguiente pregunta.
• Top 5 de los mayores cantidad de montos Adjudicado por actividad económicas?
• Cantidad de proceso por actividad económicas publicado?
• Top 5 de proveedores del estado con mayor monto adjudicado, actividad económica, clasificación
empresarial, cantidad de contractos, y proceso.
• Calcular cantidad de procesos publicado en el 2023 por fecha de publicación para la actividad económica
con mayor monto adjudicado.
Modelo de datos de datos
• La tabla DGII_RNC se relaciona con proveedores por el campo Cédula/RNC
• La de proveedores se relaciona con contratos adjudicado por el campo RNC
• Tabla de proceso se relaciona con contratos adjudicado por código proceso
Gracias

También podría gustarte