0% encontró este documento útil (0 votos)
21 vistas10 páginas

Syllabus

Cargado por

John Perez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
21 vistas10 páginas

Syllabus

Cargado por

John Perez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Syllabus

Procesos ETL

PROFESOR
Carlos Sacristan

v6
Presentación de la materia

En el campo del data engineering, transformar datos para obtener valor sigue siendo
esencial, trabajo que se realiza principalmente a través de los procesos de Extracción,
Transformación y Carga (ETL). Este enfoque no es solo una técnica aislada; forma parte de
una metodología más amplia conocida como data pipelines, que incluye diversas estrategias
para gestionar y procesar datos. Originalmente ejecutados como scripts manuales dentro de
los sistemas operativos, estos procesos han evolucionado hacia operaciones altamente
automatizadas que se han beneficiado de innovaciones como Big Data o la computación en
la nube y donde la Inteligencia Artificial no ha hecho más que potenciar su importancia.

En el contexto de big data, los procesos ETL se ajustan para manejar las famosas "V"
(volumen, variedad, velocidad y veracidad) de los datos masivos, asegurando que puedan
procesar y transformar grandes cantidades de datos de diferentes formatos y fuentes de
manera eficiente. Con la nube, los ETL sacan partido de la escalabilidad y flexibilidad,
permitiendo ajustar los recursos según las necesidades dinámicas del procesamiento de
datos, lo que optimiza tanto el rendimiento como el costo. En cuanto a la Inteligencia
Artificial, los ETL son fundamentales para proporcionar datos de alta calidad, esenciales
para entrenar modelos precisos y efectivos, destacando la importancia de datos limpios y
confiables para el éxito de los algoritmos de aprendizaje automático.

Los ingenieros de datos se enfrentan a numerosos desafíos al diseñar y mantener data


pipelines, ya que no solo deben ser robustos sino también extremadamente adaptables.
Desde la integración de procesos batch y streaming, que requieren enfoques distintos en
términos de manejo y procesamiento de datos, hasta la gestión de una amplia variedad de
fuentes de datos que pueden incluir bases de datos tradicionales, grandes volúmenes de
datos no estructurados y flujos de datos en tiempo real, los ingenieros deben asegurar que
todos los componentes funcionen de forma fluida y coordinada. Además, está la presión
constante de entregar estos datos de manera oportuna y precisa, cumpliendo con los más
altos estándares de calidad para satisfacer las demandas críticas del negocio y cumplir con
las expectativas de los usuarios finales. Cada uno de estos aspectos presenta sus propios
desafíos técnicos y logísticos, poniendo a prueba la habilidad de los ingenieros para diseñar
soluciones que no solo sean eficaces a corto plazo, sino que también escalen y se adapten
a las necesidades cambiantes del entorno empresarial y tecnológico.

Por su parte, la sección práctica del módulo permite al alumno aplicar estos conceptos
teóricos mediante el uso de diversas herramientas y metodologías, muchas de ellas muy
novedosas, que permiten reflejar las tendencias actuales en el mundo de la ingeniería de
2
v6
datos. Pero es importante mencionar que los laboratorios proporcionados deberían ser
considerados como un punto de partida para una investigación más profunda, de modo que
recomendamos al alumno explorar más allá de estos ejercicios introductorios, utilizando
entre otras posibilidades los recursos y materiales que se incluyen a lo largo de los
diferentes capítulos de los que consta el módulo, recursos escogidos cuidadosamente de la
gran cantidad de información disponible en internet para complementar y enriquecer el
aprendizaje en la creación y gestión de data pipelines eficientes y efectivos.

3
v6
Objetivos de Aprendizaje

1. Entender el contexto de los procesos ETL y de los data pipelines en general en la


ingeniería de datos.

2. Cómo identificar y capturar los requisitos asociados a estos procesos.

3. Entender los retos y particularidades de cada una de las fases que involucran estos
procesos.

4. Una vez desarrollados, qué otros aspectos es necesario tener en cuenta para que su
mantenimiento sea efectivo.

4
v6
Programa de la materia: estructura y contenidos

1. Teoría
a. Introducción
b. Tipología
c. Captura de requisitos
d. Ingesta
e. Modelado
f. Transformación del dato
g. Carga
h. Orquestación
i. Diseño y mantenimiento
2. Práctica
a. Laboratorios temáticos

5
v6
Metodología y Actividades

• Visionado de videos y lecturas con los contenidos de la materia que incluirán


explicaciones sobre los conceptos, así como ejemplos actuales.
• Debates en grupo alrededor de los conceptos explicados, que ayuden al alumno
a completar la reflexión sobre el contenido del curso.
• Desarrollo de diversas actividades prácticas de temáticas más específicas.
• Test teórico de evaluación (fecha máxima de entrega último día del módulo)
• Proyecto final (fecha máxima de entrega último día del módulo)

Descripción de las actividades:

A01: Webinar de apertura:

o Formato: grupal
o Herramientas: acceso a la Plataforma de Videoconferencia
o Desarrollo y plazo de ejecución: asistencia a la sesión de apertura

A02: Visionado de los vídeos


o Formato: individual
o Herramientas: videos de la primera semana
o Desarrollo y plazo de ejecución: a lo largo de la primera semana

A03: Foro de debate:


o Formato: grupal
o Herramientas: tablero de discusión
o Desarrollo y plazo de ejecución: a lo largo de la primera semana

A04: Lectura de las notas técnicas:


o Formato: individual
o Herramientas: lecturas de las notas técnicas de la carpeta Semana de trabajo
online
o Desarrollo y plazo de ejecución: a lo largo de la primera semana

6
v6
A05: Preguntas, dudas y debate en el foro:
o Formato: grupal
o Herramientas: Tablero de discusión
o Desarrollo y plazo de ejecución: a lo largo de las dos semanas

A06: Test de evaluación:


o Formato: Individual
o Herramientas: realizar el test de evaluación de la plataforma
o Desarrollo y plazo de ejecución: recomendado hacerlo durante la primera
semana. Fecha máxima de entrega el último lunes del módulo, antes del final
del día (23:59 CET)

A07: Webinar mitad de módulo:


o Formato: grupal
o Herramientas: acceso a la Plataforma de Videoconferencia
o Desarrollo y plazo de ejecución: asistencia a la sesión del miércoles

A08: Laboratorios Temáticos:


o Formato: individual
o Herramientas: material específico proporcionado para cada laboratorio
o Desarrollo y plazo de ejecución: a lo largo de la segunda semana

A09: Proyecto Final


o Formato: individual
o Herramientas: documentación proporcionada en la actividad
o Desarrollo y plazo de ejecución: recomendado hacerlo durante la segunda
semana. Fecha máxima de entrega el último lunes del módulo, antes del final
del día (23:59 CET)

A10: Webinar de cierre:


o Formato: grupal
o Herramientas: acceso a la Plataforma de Videoconferencia
o Desarrollo y plazo de ejecución: asistencia a la sesión del lunes

Las secciones del módulo y los laboratorios temáticos se acompañan de recursos


adicionales cuidadosamente seleccionados. Estos materiales complementarios profundizan
en conceptos y herramientas discutidos en los videos y están diseñados para enriquecer el
aprendizaje del módulo. Dado que es probable que algunos de estos contenidos se
encuentren particularmente relevantes y aplicables al contexto del alumno, recomendamos
planificar el tiempo de estudio con esto en cuenta. La relevancia y utilidad de estos recursos
adicionales podrían requerir más tiempo del inicialmente previsto para explorarlos
completamente.

7
v6
Evaluación

• Test de Evaluación 35 %
• Laboratorios Temáticos 20 %
o Hay planteados una serie de laboratorios de temas específicos que permiten
entender mejor las diferentes fases de las que consta un data pipeline.
Además de documentos donde se explica el objetivo y forma de entrega para
cada uno de los laboratorios, se incluyen también un video de la herramienta
o tecnología que se trabaja en esa actividad, de modo que sea más fácil la
realización de los mismos.
o El porcentaje indicado se repartirá de forma equitativa entre todos los
laboratorios
• Proyecto Final 45 %
o Se planteará un proyecto final que combine toda la teoría y técnicas
aprendidas en los laboratorios temáticos. Las instrucciones para realizarlo y la
forma de entrega se incluyen en la documentación de la actividad.

8
v6
Bibliografía y materiales docentes

Si quieres profundizar más en el contenido, puedes consultar las siguientes referencias:

Libros:

o Kleppmann, M. (2017). Designing Data-Intensive Applications: The Big Ideas


Behind Reliable, Scalable, and Maintainable Systems. O'Reilly Media.
o Densmore, J. (2021). Data Pipelines Pocket Reference: Moving and
Processing Data for Analytics. O'Reilly Media.
o Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit: The Definitive
Guide to Dimensional Modeling (3rd ed.). Wiley.

o Anderson J. (2020). Data Teams: A Unified Management Model for


Successful Data-Focused Teams. Apress

o Palmer, M. (2024). Understanding ETL. O’Reilly Media

o Harenslak, B & Ruiter, J. (2021). Data Pipelines with Apache Airflow.


Manning Publications

o Kunigk, J., Buss, I., Wilkinson, P. & George, L. (2018). Architecting Modern
Data Platforms. O’Reilly Media.

9
v6
CV del profesor

• Carlos Sacristán, Licenciado en Filosofía y Letras por la UCM, lleva sin embargo
toda su carrera profesional ligado al dato, evolucionando desde la figura de un
DBA tradicional para adaptarse a las necesidades que el Big Data y la analítica
avanzada exigen para seguir ofreciendo soluciones a las demandas de sus
clientes.

• La dilatada experiencia en consultoría técnica le ha permitido conocer la


problemática de muy distintos sectores, obteniendo una visión muy amplia de las
múltiples soluciones que ofrece el mercado.

• Actualmente es Senior Data Manager en una consultora multinacional.

• Colabora con EOI y otras escuelas como profesor de BI & Big Data.

• [Link]

10
v6

También podría gustarte