0% encontró este documento útil (1 voto)

379 vistas13 páginas

ETL Actividad de Profundizacion

El documento describe el proceso ETL para limpiar y transformar datos usando Matlab. Se generaron datos con valores faltantes y atípicos y se usaron tareas como Clean Missing Data, Clean Outlier Data y SmoothData para reemplazarlos. Luego se graficaron los datos limpios.

Cargado por

Ivan Andres Arias Fonseca

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (1 voto)

379 vistas13 páginas

ETL Actividad de Profundizacion

Cargado por

Ivan Andres Arias Fonseca

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

ACTIVIDAD PRACTICA APLICADA

ETAPA DE PROFUNDIZACION

AUTOR
IVAN ANDRES ARIAS FONSECA
Evidencia: Actividad de profundizacion
PROFESOR
HELBER LEANDRO BAEZ RODRIGUEZ

FACULTAD DE INGENIERIA DE SISTEMAS

2024 1-EXTRACCION TRANSFORMACION Y CARGA DE DATOS-2310-7A MOM 1
VIRTUAL
EXTRACCION TRANSFORMACION Y CARGA DE DATOS
Bogotá D.C
10 de marzo de 2024
INTRODUCCION

En la actualidad, se maneja una gran cantidad de informacion que puede exportarse a traves
de las bases de datos, las cuales se manejan de diversas formas segun el proposito que se le
quiera dar a la informacion. Por tanto, el proceso ETL (Extract, Transform, Load) se vuelve
fundamental, ya que nos permite extraer, transformar y cargar la informacion de manera
coherente para garantizar su adecuado procesamiento una vez cargada en el destino.

A pesar de contar con amplia experiencia en el manejo de base de datos, en muchas

empresas aun resulta dificil extraer esta informacion, lo que lleva a obtener resultados poco
tangibles y en algunos casos, los datos generados no se analizan debidamente.

Por ello el proceso ETL se convierte en una herramienta indispensable, ya que se encarga
de tartar los datos, extraerlos y transformarlos en informacion util que pueda ser cargada en
diferentes plataformas, ademas este proceso busca identificar patrones que puedan generar
anomalias en la clasificacion de los datos extraidos.
OBJETIVOS

 El objetivo principal de la ETL es garantizar que los datos extraidos de las fuentes
puedan optimizarse para el analisis y la informacion que se utilizara para mejorar la
productividad y la rentabilidad de la empresa.

 ETL automatiza las tareas de procesamiento de datos repetibles para un analisis

eficiente.

 Analizar los datos y mediante mathlab limpiar los datos confusos.

 Mediante graficas confirmaremos los valores maximos y minimos de los valores

usados en el ejemplo.
JUSTIFICACION

El proceso ETL es una pieza clave en la gestion eficiente de datos, proporcionando

integracion, calidad, agilidad, optimizacion, cumplimiento normativo y capacidad de
adaptacion.
Su implementacion contribuye significativamente a mejorar la capacidad de una
organizacion para aprovechar el valor de sus datos en la toma de decisiones y la obtencion
de ventajas competitivas.
Trabajo individual
Esta actividad permitirá al estudiante medir su capacidad de análisis para los elementos
necesarios para realizar limpieza de datos a partir de grandes cantidades:
1. Realizar el siguiente tutorial con la herramienta solicitada (recuerden que la herramienta
Matlab está disponible institucionalmente), no modificar el ejemplo:
[Link] ml
2. Documentar el proceso anterior.
3. Elaborar un informe en normas APA que debe contener:
• Introducción
• Objetivos (Del análisis hecho, mas no de la actividad como tal)
• Justificación • Documentación del proceso (No es válido solo colocar los screenshot),
todas las imágenes expuestas deben tener una explicación.
• Conclusiones

Trabajo colaborativo:
Para el desarrollo de esta fase es indispensable aplicar las siguientes acciones:
1. De los conjuntos de datos seleccionados individualmente, escoger en el grupo un
solo conjunto de datos, argumentando el porqué de la elección correspondiente.

Desarrollo:

Vamos a empezar creando un vector de datos confusos que contengan cuatro valores de tipo
NaN y cinco valores atipicos.

x = 1:100;
data = cos (2*pi*0.05*x+2*pi*rand) + 0.5*randn(1,100);
data([Link]) = NaN;
data([Link]) = [-50 40 30 -45 35];
Ya temenos los datos establecidos, ahora vamos a crear un plot en el confirmamos los
labels para el eje X y Y para despues representar su grafica.

Creacion del plot.

Grafica del Plot

Tenemos algunos valores indefinidos y necesitamos reemplazarlos y poder verlos

graficamente para esto debemos abrir la tarea Clean Missing Data y usamos los siguientes
comandos cleanedData y missingIndice los datos de entrada y el metodo de limpieza para
representar los datos seran rellenados automaticamente.
Datos faltantes y el proceso de rellenarlos

Grafica con datos completados.

Lo siguiente que se hizo fue completer los valores distintos con la tarea Clean Outlier Data,
se selecciona cleanedData como datos de entrada y se pudo personalizar metodos de
limpieza para ajustar el umbral para encontrar mas o menos valores distintos.

Completando datos distintos

Grafica con los datos que faltaban

Para obetener un grafico con valores suavizados se puede utilizar la tarea SmoothData,
luego elegir cleanedData2, luego seleccione el metodo de suavizado y ajuste el factor de
suavizado para obtener un mayor o menor suavizado, lo podemos confirmer en la figura.

Grafica de datos suavizados

Para encontrar los extremos de un valor se combina con la tarea find(maxIndices) y
find(minIndices).
Se puede ajustar los parametros de extremos locales para encontrar mas o menos maximos
y minimos.

Grafica extremo maximo, minimo

CONCLUSION

En conclusion la importancia de la calidad de datos es el exito de cualquier proyecto de

analisis de datos, el proceso ETL desempeña un papel crucial en la mejora de de la calidad
de los datos al limpiar, normalizar y enriquecerlos segun sea necesario por eso un proceso
ETL bien diseñado y ejecutado proporciona datos precisos, oportunos y relevantes que son
fundamentales para una toma de decisiones informada y estrategica en todos los niveles de
una organizacion.
BIBLIOGRAFIA

Top 5 herramientas ETL empresariales 2019 en 1 minuto - Aprender BIG DATA #14. (n.d.).

Retrieved March 11, 2024, from [Link]

¿Qué es ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. (n.d.).

Amazon Web Services, Inc. Retrieved March 11, 2024, from

[Link]

Limpiar datos confusos y localizar extremos usando las tareas de Live Editor - MATLAB &

Simulink - MathWorks América Latina. (n.d.). Retrieved March 11, 2024, from

[Link]

Clear y clear all MATLAB. (n.d.). Retrieved March 11, 2024, from

[Link]

Como Crear Graficas en Matlab. (n.d.). Retrieved March 11, 2024, from

[Link]

También podría gustarte

Etl Transferencia
Aún no hay calificaciones
Etl Transferencia
21 páginas
Actividad de Contextualizacion
Aún no hay calificaciones
Actividad de Contextualizacion
5 páginas
Actividad de Reconocimiento
Aún no hay calificaciones
Actividad de Reconocimiento
7 páginas
Actividad 3
Aún no hay calificaciones
Actividad 3
11 páginas
Actividad Redes de Datos Profundizacion
0% (1)
Actividad Redes de Datos Profundizacion
4 páginas
Base de Datos Trabajo Final 3 Pasar A PDF
Aún no hay calificaciones
Base de Datos Trabajo Final 3 Pasar A PDF
17 páginas
Programación OO: Animales y Clases
100% (1)
Programación OO: Animales y Clases
15 páginas
Taller 2 Grupal
Aún no hay calificaciones
Taller 2 Grupal
17 páginas
Fundamentos de Sistemas de Bases de Datos
Aún no hay calificaciones
Fundamentos de Sistemas de Bases de Datos
23 páginas
Actividad Práctica Aplicada: Programación Orientada A Objetos
Aún no hay calificaciones
Actividad Práctica Aplicada: Programación Orientada A Objetos
13 páginas
Técnicas ETL en la Gestión de Datos Empresariales
Aún no hay calificaciones
Técnicas ETL en la Gestión de Datos Empresariales
4 páginas
Actividad 4
Aún no hay calificaciones
Actividad 4
20 páginas
Herencia en Programación de Animales
Aún no hay calificaciones
Herencia en Programación de Animales
9 páginas
Normalización y Gestión de Bases de Datos
Aún no hay calificaciones
Normalización y Gestión de Bases de Datos
16 páginas
Actividad 3 Bases de Datos
0% (1)
Actividad 3 Bases de Datos
20 páginas
Sistemas Operativos Parte 1 y 2
Aún no hay calificaciones
Sistemas Operativos Parte 1 y 2
8 páginas
Actividad de Profundización - Cálculo Diferencial ..
Aún no hay calificaciones
Actividad de Profundización - Cálculo Diferencial ..
16 páginas
Desarrollo Actividad
Aún no hay calificaciones
Desarrollo Actividad
12 páginas
Diseño y Normalización de Bases de Datos
Aún no hay calificaciones
Diseño y Normalización de Bases de Datos
15 páginas
Unidad 3 Transferencia Pruebas de Software 1
100% (1)
Unidad 3 Transferencia Pruebas de Software 1
6 páginas
Actividad Académica - Reconocimiento
Aún no hay calificaciones
Actividad Académica - Reconocimiento
12 páginas
Etapa de Profundizacion
Aún no hay calificaciones
Etapa de Profundizacion
6 páginas
Control de Temperatura con Software
Aún no hay calificaciones
Control de Temperatura con Software
21 páginas
Actividad de Aprendizaje 2
Aún no hay calificaciones
Actividad de Aprendizaje 2
12 páginas
Actividad 1 Calculo Diferencial
Aún no hay calificaciones
Actividad 1 Calculo Diferencial
13 páginas
Actividad Académica - Profundización
Aún no hay calificaciones
Actividad Académica - Profundización
14 páginas
Levantamiento de Requerimientos Software
100% (1)
Levantamiento de Requerimientos Software
7 páginas
Soluciones a Juegos de Lógica Digital
Aún no hay calificaciones
Soluciones a Juegos de Lógica Digital
11 páginas
Actividad 4 - Segunda Parte Caso Practico
Aún no hay calificaciones
Actividad 4 - Segunda Parte Caso Practico
12 páginas
Actividad Practica Aplicada Contextualizacion
Aún no hay calificaciones
Actividad Practica Aplicada Contextualizacion
2 páginas
Actividad Académica Transerencia
0% (1)
Actividad Académica Transerencia
6 páginas
Taller de Reconocimiento PDF
Aún no hay calificaciones
Taller de Reconocimiento PDF
16 páginas
Creación Web: HTML y CSS en UCompensar
Aún no hay calificaciones
Creación Web: HTML y CSS en UCompensar
12 páginas
Ir Al Cuestionario de Transferencia - Revisión Del Intento
100% (1)
Ir Al Cuestionario de Transferencia - Revisión Del Intento
11 páginas
Calculo Diferencial
Aún no hay calificaciones
Calculo Diferencial
8 páginas
Actividad 4
Aún no hay calificaciones
Actividad 4
19 páginas
Actividad de Transferencia 1
Aún no hay calificaciones
Actividad de Transferencia 1
14 páginas
Sistemas Digitales Sebastian Lopez
Aún no hay calificaciones
Sistemas Digitales Sebastian Lopez
12 páginas
Actividad de Aprendizaje 2
100% (1)
Actividad de Aprendizaje 2
7 páginas
Derivadas y Razones de Cambio en Cálculo
100% (1)
Derivadas y Razones de Cambio en Cálculo
17 páginas
Actividad No - 3 (Transferencia)
Aún no hay calificaciones
Actividad No - 3 (Transferencia)
14 páginas
Desarrollo Actividad Reconocimiento
100% (1)
Desarrollo Actividad Reconocimiento
12 páginas
Actividad Transferencia
Aún no hay calificaciones
Actividad Transferencia
7 páginas
Actividad de Aprendizaje N°1 de Reconocimiento: Jose Miguel Parra Junco
Aún no hay calificaciones
Actividad de Aprendizaje N°1 de Reconocimiento: Jose Miguel Parra Junco
8 páginas
Unidad 3
Aún no hay calificaciones
Unidad 3
12 páginas
Actividad 3 Calculo Diferencial
100% (1)
Actividad 3 Calculo Diferencial
17 páginas
Aa2-Intoduccion y Arquitectura de Las Bases de Datos
Aún no hay calificaciones
Aa2-Intoduccion y Arquitectura de Las Bases de Datos
17 páginas
Actividad de Adminitracion de Servidores Final
Aún no hay calificaciones
Actividad de Adminitracion de Servidores Final
12 páginas
Actividad Contextualización Algebra Lineal
Aún no hay calificaciones
Actividad Contextualización Algebra Lineal
10 páginas
Actividad de Aprendizaje 2 Desarrollada
Aún no hay calificaciones
Actividad de Aprendizaje 2 Desarrollada
11 páginas
Desarrollo Actividad Contextualizacion
67% (3)
Desarrollo Actividad Contextualizacion
11 páginas
Actividad Práctica Aplicada de Contextualización - Calculo Integral
Aún no hay calificaciones
Actividad Práctica Aplicada de Contextualización - Calculo Integral
13 páginas
ALGEBRA LINEAL Profundiazación
Aún no hay calificaciones
ALGEBRA LINEAL Profundiazación
9 páginas
Examen Sobre Los Capítulos 1 y 10 Del Libro Del Profesor Pablo Cazau - Revisión de Intentos Metodologia Del Manejo de Informacion
69% (13)
Examen Sobre Los Capítulos 1 y 10 Del Libro Del Profesor Pablo Cazau - Revisión de Intentos Metodologia Del Manejo de Informacion
6 páginas
Actividad Practica 1 Catedra Pensar
Aún no hay calificaciones
Actividad Practica 1 Catedra Pensar
3 páginas
Entrega Unidad 2 Gloria Lasso
Aún no hay calificaciones
Entrega Unidad 2 Gloria Lasso
11 páginas
Actividad 2 Bases de Datos
Aún no hay calificaciones
Actividad 2 Bases de Datos
11 páginas
Algoritmos y Programación
Aún no hay calificaciones
Algoritmos y Programación
9 páginas
Guía Completa sobre Limpieza de Datos
Aún no hay calificaciones
Guía Completa sobre Limpieza de Datos
5 páginas
Actividad Aplicada Contextualización
Aún no hay calificaciones
Actividad Aplicada Contextualización
11 páginas
Sistemas Operativos Etapa de Reconocimiento
Aún no hay calificaciones
Sistemas Operativos Etapa de Reconocimiento
19 páginas
Entrega Actividad Catedra de La Paz Contextualizacion
Aún no hay calificaciones
Entrega Actividad Catedra de La Paz Contextualizacion
8 páginas
GuiaVirtualBond 2143477078 2143477078
Aún no hay calificaciones
GuiaVirtualBond 2143477078 2143477078
1 página
Virtualización y Conexión Remota
Aún no hay calificaciones
Virtualización y Conexión Remota
45 páginas
Actividad Practica Aplicada de Reconocimiento
Aún no hay calificaciones
Actividad Practica Aplicada de Reconocimiento
18 páginas
Actividad Practica Aplicada Levantamiento de Requerimientos 1
Aún no hay calificaciones
Actividad Practica Aplicada Levantamiento de Requerimientos 1
3 páginas
Algoritmos para Solución de Problemas
Aún no hay calificaciones
Algoritmos para Solución de Problemas
6 páginas
101.3. Administración Básica de Archivos
Aún no hay calificaciones
101.3. Administración Básica de Archivos
9 páginas
GA3 220501113 AA1 EV01. Mapa Conceptual
100% (1)
GA3 220501113 AA1 EV01. Mapa Conceptual
12 páginas
DADE 103 Unidad 04
Aún no hay calificaciones
DADE 103 Unidad 04
15 páginas
Comandos Esenciales de CMD y MS-DOS
Aún no hay calificaciones
Comandos Esenciales de CMD y MS-DOS
9 páginas
ESTUDIO TOPOGRAFICO - Costa Verde
Aún no hay calificaciones
ESTUDIO TOPOGRAFICO - Costa Verde
28 páginas
SQL Server BD
Aún no hay calificaciones
SQL Server BD
12 páginas
Material para Examen Teorico Bimestral-Final
Aún no hay calificaciones
Material para Examen Teorico Bimestral-Final
5 páginas
Estructura de Sistemas Operativos Monopuesto
75% (4)
Estructura de Sistemas Operativos Monopuesto
1 página
Noam Chomsky IA
Aún no hay calificaciones
Noam Chomsky IA
6 páginas
Fundamentos de Bases de Datos
Aún no hay calificaciones
Fundamentos de Bases de Datos
84 páginas
Examen de Analítica de Datos
Aún no hay calificaciones
Examen de Analítica de Datos
12 páginas
Terminología y Sistema de Bases de Datos
Aún no hay calificaciones
Terminología y Sistema de Bases de Datos
12 páginas
Contenido Programático I SEMESTRE 2025
Aún no hay calificaciones
Contenido Programático I SEMESTRE 2025
6 páginas
Asistente - Análisis - de - Concordancia - de - Atributos MINITAB
Aún no hay calificaciones
Asistente - Análisis - de - Concordancia - de - Atributos MINITAB
7 páginas
Estadística e Investigación
Aún no hay calificaciones
Estadística e Investigación
8 páginas
Ejercicios SQL Resueltos
Aún no hay calificaciones
Ejercicios SQL Resueltos
12 páginas
Guía de Vigilancia Directrices para La Evaluación de Sistemas de Vigilancia en Salud Pública
Aún no hay calificaciones
Guía de Vigilancia Directrices para La Evaluación de Sistemas de Vigilancia en Salud Pública
15 páginas
Esquema de Análisis Informático
Aún no hay calificaciones
Esquema de Análisis Informático
2 páginas
Guía sobre particiones de memoria en PC
100% (1)
Guía sobre particiones de memoria en PC
17 páginas
Diseño Lógico de Datos: Objetivos y Fases
Aún no hay calificaciones
Diseño Lógico de Datos: Objetivos y Fases
44 páginas
Ejercicios Normalizacion
100% (1)
Ejercicios Normalizacion
7 páginas
Indagación Científica Experimental
Aún no hay calificaciones
Indagación Científica Experimental
2 páginas
3.3 Datos Atípicos
Aún no hay calificaciones
3.3 Datos Atípicos
8 páginas
Ejercicios y Actividades de Sistema de Base de Datos
Aún no hay calificaciones
Ejercicios y Actividades de Sistema de Base de Datos
19 páginas
Roles y Permisos
Aún no hay calificaciones
Roles y Permisos
10 páginas
Entity Framework Tutorial
100% (1)
Entity Framework Tutorial
104 páginas
El Uso de La Tecnología en Las Ciencias Forenses
Aún no hay calificaciones
El Uso de La Tecnología en Las Ciencias Forenses
12 páginas
Big Data. Módulo 1
Aún no hay calificaciones
Big Data. Módulo 1
13 páginas
Ga1 220501092 Aa1 Ev01
Aún no hay calificaciones
Ga1 220501092 Aa1 Ev01
2 páginas