ACTIVIDAD PRACTICA APLICADA
ETAPA DE PROFUNDIZACION
AUTOR
IVAN ANDRES ARIAS FONSECA
Evidencia: Actividad de profundizacion
PROFESOR
HELBER LEANDRO BAEZ RODRIGUEZ
FACULTAD DE INGENIERIA DE SISTEMAS
2024 1-EXTRACCION TRANSFORMACION Y CARGA DE DATOS-2310-7A MOM 1
VIRTUAL
EXTRACCION TRANSFORMACION Y CARGA DE DATOS
Bogotá D.C
10 de marzo de 2024
INTRODUCCION
En la actualidad, se maneja una gran cantidad de informacion que puede exportarse a traves
de las bases de datos, las cuales se manejan de diversas formas segun el proposito que se le
quiera dar a la informacion. Por tanto, el proceso ETL (Extract, Transform, Load) se vuelve
fundamental, ya que nos permite extraer, transformar y cargar la informacion de manera
coherente para garantizar su adecuado procesamiento una vez cargada en el destino.
A pesar de contar con amplia experiencia en el manejo de base de datos, en muchas
empresas aun resulta dificil extraer esta informacion, lo que lleva a obtener resultados poco
tangibles y en algunos casos, los datos generados no se analizan debidamente.
Por ello el proceso ETL se convierte en una herramienta indispensable, ya que se encarga
de tartar los datos, extraerlos y transformarlos en informacion util que pueda ser cargada en
diferentes plataformas, ademas este proceso busca identificar patrones que puedan generar
anomalias en la clasificacion de los datos extraidos.
OBJETIVOS
El objetivo principal de la ETL es garantizar que los datos extraidos de las fuentes
puedan optimizarse para el analisis y la informacion que se utilizara para mejorar la
productividad y la rentabilidad de la empresa.
ETL automatiza las tareas de procesamiento de datos repetibles para un analisis
eficiente.
Analizar los datos y mediante mathlab limpiar los datos confusos.
Mediante graficas confirmaremos los valores maximos y minimos de los valores
usados en el ejemplo.
JUSTIFICACION
El proceso ETL es una pieza clave en la gestion eficiente de datos, proporcionando
integracion, calidad, agilidad, optimizacion, cumplimiento normativo y capacidad de
adaptacion.
Su implementacion contribuye significativamente a mejorar la capacidad de una
organizacion para aprovechar el valor de sus datos en la toma de decisiones y la obtencion
de ventajas competitivas.
Trabajo individual
Esta actividad permitirá al estudiante medir su capacidad de análisis para los elementos
necesarios para realizar limpieza de datos a partir de grandes cantidades:
1. Realizar el siguiente tutorial con la herramienta solicitada (recuerden que la herramienta
Matlab está disponible institucionalmente), no modificar el ejemplo:
[Link] ml
2. Documentar el proceso anterior.
3. Elaborar un informe en normas APA que debe contener:
• Introducción
• Objetivos (Del análisis hecho, mas no de la actividad como tal)
• Justificación • Documentación del proceso (No es válido solo colocar los screenshot),
todas las imágenes expuestas deben tener una explicación.
• Conclusiones
Trabajo colaborativo:
Para el desarrollo de esta fase es indispensable aplicar las siguientes acciones:
1. De los conjuntos de datos seleccionados individualmente, escoger en el grupo un
solo conjunto de datos, argumentando el porqué de la elección correspondiente.
Desarrollo:
Vamos a empezar creando un vector de datos confusos que contengan cuatro valores de tipo
NaN y cinco valores atipicos.
x = 1:100;
data = cos (2*pi*0.05*x+2*pi*rand) + 0.5*randn(1,100);
data([Link]) = NaN;
data([Link]) = [-50 40 30 -45 35];
Ya temenos los datos establecidos, ahora vamos a crear un plot en el confirmamos los
labels para el eje X y Y para despues representar su grafica.
Creacion del plot.
Grafica del Plot
Tenemos algunos valores indefinidos y necesitamos reemplazarlos y poder verlos
graficamente para esto debemos abrir la tarea Clean Missing Data y usamos los siguientes
comandos cleanedData y missingIndice los datos de entrada y el metodo de limpieza para
representar los datos seran rellenados automaticamente.
Datos faltantes y el proceso de rellenarlos
Grafica con datos completados.
Lo siguiente que se hizo fue completer los valores distintos con la tarea Clean Outlier Data,
se selecciona cleanedData como datos de entrada y se pudo personalizar metodos de
limpieza para ajustar el umbral para encontrar mas o menos valores distintos.
Completando datos distintos
Grafica con los datos que faltaban
Para obetener un grafico con valores suavizados se puede utilizar la tarea SmoothData,
luego elegir cleanedData2, luego seleccione el metodo de suavizado y ajuste el factor de
suavizado para obtener un mayor o menor suavizado, lo podemos confirmer en la figura.
Grafica de datos suavizados
Para encontrar los extremos de un valor se combina con la tarea find(maxIndices) y
find(minIndices).
Se puede ajustar los parametros de extremos locales para encontrar mas o menos maximos
y minimos.
Grafica extremo maximo, minimo
CONCLUSION
En conclusion la importancia de la calidad de datos es el exito de cualquier proyecto de
analisis de datos, el proceso ETL desempeña un papel crucial en la mejora de de la calidad
de los datos al limpiar, normalizar y enriquecerlos segun sea necesario por eso un proceso
ETL bien diseñado y ejecutado proporciona datos precisos, oportunos y relevantes que son
fundamentales para una toma de decisiones informada y estrategica en todos los niveles de
una organizacion.
BIBLIOGRAFIA
Top 5 herramientas ETL empresariales 2019 en 1 minuto - Aprender BIG DATA #14. (n.d.).
Retrieved March 11, 2024, from [Link]
¿Qué es ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. (n.d.).
Amazon Web Services, Inc. Retrieved March 11, 2024, from
[Link]
Limpiar datos confusos y localizar extremos usando las tareas de Live Editor - MATLAB &
Simulink - MathWorks América Latina. (n.d.). Retrieved March 11, 2024, from
[Link]
Clear y clear all MATLAB. (n.d.). Retrieved March 11, 2024, from
[Link]
Como Crear Graficas en Matlab. (n.d.). Retrieved March 11, 2024, from
[Link]