Tare 2 Proceso Etl

este proyecto uapa

Cargado por

Wilson Muñoz Artez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

61 vistas8 páginas

Tare 2 Proceso Etl

este proyecto uapa

Cargado por

Wilson Muñoz Artez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD ABIERTA PARA ADULTOS

ESCUELA DE INGENIERIA Y TECNOLOGIA

Carrera:
Ingeniería de Software.

Asignatura:
Minería de datos.

Tema:
Procesó ETL y KDD

Facilitador:
Tomas F. Ramírez Pérez.

Participante:
Wilson Antonio Muñoz Morales. Mat.100015865.

Fecha:
23 de noviembre del 2024.

Santiago de los Caballeros,

República Dominicana.
1. Elabora una infografía del proceso ETL de datos.

https://www.canva.com/design/DAGXTf2D2w4/Y7wDIYzAc7em8Om2Wl3-
Lg/edit?utm_content=DAGXTf2D2w4&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton
2. Elabora una tabla comparativa entre datos estructurado, semi-estructurado y no estructurado.

Características Datos Estructurados Semi-estructurado No Estructurados

Definición Datos organizados en formato predefinidos y Datos que no tienen un esquema rígido, Datos sin un formato predefinido o
fijo, como base de datos relacionado. ni un formato estrictamente definido estructura clara.
Formato Tablas con filas, columnas y un esquema. Marcado con etiquetas, pero no siguen Sin formato definido.
un esquema.
Facilidad para Es fácil, ya que los datos don consistentes y Moderadamente fácil, Se requiere Difícil, ya que se necesita
analizar se pueden consultar con SQL. herramientas que interpreten el formato. procesamiento adicional para
extraer información relevante.
Ejemplo básico Base de datos relacionales, hoja de Excel. XML, JSON, correos electrónicos. Imagen, videos, publicaciones en
rede sociales, entre otros.
Acceso y consulta Fácil acceso y consulta median SQL Se necesita lenguajes de consulta Difícil acceder y analizar sin
especializado (como Xpath para XML). procesamiento adicional.
Almacenamiento Almacenados en base de datos relacionales Almacenados en base de datos NoSQL Almacenados en sistema de
o archivos. archivos o almacene en la nube.
Flexibilidad Baja, ya que los datos deben cumplir con una Alta, ya que permite cierta flexibilidad, Muy alta, no requiere estructura
estructura predefinida. pero con algún grado de organización. previa, pero carece de consistencia
Tamaño Generalmente más pequeño y manejable. Puede variar en tamaño a menudo más Muy grande puede incluir grandes
grande. volúmenes de datos.
Ejercicios de Análisis fácil y rápido gracias a su estructura. Análisis mas complejo, pero posible con Análisis complicado, requiere
análisis herramientas adecuadas. técnica de minería de datos.
Ejemplo de uso Información financiera, inventarios, registros Datos de redes sociales, logs de Material multimedia, correos
académicos. servidores, archivos de configuración. electrónicos, documentos en textos
libre.
Ventaja Consultas eficientes Flexibilidad Captura amplia
Desventaja Menos flexibilidad Dificultad en análisis Dificultad en organización.
3 describe tres bases de datos SQL y tres No SQL. Según lo visto
en que escenario deberíamos usar una u otra.
Bases de datos SQL:
✓ MySQL
• Descripción: Sistema de gestión de base de datos
relacional de código abierto, Utiliza SQL para la
consulta de datos.
• Usos comunes: sitios web, aplicaciones
empresariales, sistemas de gestión de contenido, y
comercio electrónico.
✓ PostgreSQL
• Descripción: base de datos relacional avanzada y de
código abierto que soporta características como
transacciones ACID y consultas complejas.
• Usos comunes: aplicaciones que requieren integridad
de datos, análisis de datos y sistemas empresariales.
✓ Microsoft SQL Server
• Descripción: una base de datos relacional robusta y
comercializada por Microsoft, que ofrece características
avanzadas de seguridad, alta disponibilidad y análisis
de datos
• Usos comunes: empresas grandes que requieren alta
isponibilidad, seguridad avanzada y escalabilidad, como
sistema ERP, CRM, y aplicaciones empresariales
complejas.
Bases de datos No SQL:
✓ MongoDB
• Descripción: es una base de datos NoSQL orientada a
documentos que almacena datos en formato BSON
(una extensión de JSON).
• Usos comunes: aplicaciones que requieren flexibilidad
en el esquema, como aplicaciones móviles y análisis de
grandes volúmenes de datos.
✓ Cassandra
• Descripción: es una base de datos distribuida, de
código abierto diseñada para manejar grandes
cantidades de datos en múltiples servidores sin un
punto único de fallo. Utiliza un modelo de datos en
columnas.
• Usos comunes: perfecta para aplicaciones que
necesitan alta disponibilidad, tolerancia a fallos y
escalabilidad masiva, como sistemas de
recomendación, análisis en tiempo real y aplicaciones
móviles con grandes volúmenes de datos.
✓ Redis
• Descripción: es una base de datos en memoria que
funciona como un almacén de estructuras de datos,
ideal para aplicaciones que requieren alta velocidad.
• Usos comunes: cache de datos, sistema de
.mensajería en tiempo real, y análisis en tiempo real.
Cuando usar usar SQL y cuando usar NoSQL.
Usar SQL cuando:
• Estructura fija: tu datos tienen una estructura bien definida y no cambia
con frecuencia.
• Transacciones complejas: necesita garantizar la integridad de los
datos mediante transacciones ACID.
• Consulta compleja: requieres realizar consultas complejas y uniónes
entre tablas.
Usar NoSQL cuando:
• Flexibilidad de esquema: tus datos son semiestructurados o no
estructurados, y pueden cambiar con frecuencia.
• Escalabilidad horizontal: necesita escalar tu base de datos fácilmente
a través de múltiples servidores.
• Alto rendimiento: requieres accesos rápido a datos y operaciones de
lectura/escritura de alto rendimiento.
4 Diferencias entre un ingeniero de datos y un científico de datos.
Un ingeniero de datos:
• Se centra en la infraestructura y la preparación de datos.
• Construye y mantiene sistemas para almacenar y acceder a los
datos.
• Limpia y transforma los datos para su análisis.
• Optimiza el rendimiento de los sistemas de datos.
Un científico de datos:
• se enfoca en el análisis y el modelado de datos.
• Desarrolla modlos y algoritmos para predecir patrones.
• Extrae información y conocimientos de los datos.
• Comunica resultados a través de visualizaciónes y apoya a la toma de
decisiones basada en datos.
5. Elabora un mapa conceptual del Proceso KDD en minería de datos.

Proceso KDD

Es un conjunto de paso interrelacionados que se

siguen para descubrir patrones útiles y
conocimiento a partir de grandes volúmenes de
datos

Selección de datos Preprocesamiento transformación Minería de datos Evaluación y interpretación

Definición: identificación y Definición: consiste en la Definición: modificación de Definición: aplicación de Definición: evaluar los
extracción de los datos limpieza y preparación de los datos para que sean mas técnicas de modelos y patrones descubiertos para
relevantes del conjunto de datos para su análisis. adecuados para el modelo. aprendizaje automático para determinar su utilidad e
datos. identificar patrones en los interpretabilidad.
Objetivo: eliminar Objetivo: convertir los datos datos.
Objetivo: seleccionar las inconsistencia y errores en den un formato adecuado Objetivo: asegurar que los
fuentes de datos que los datos para mejorar la para los algoritmos de Objetivo: extraer patrones sean relevante,
contienen la información calidad de los datos minería de datos. conocimiento útil y patrones preciso y útil para la toma de
necesaria para el análisis. ocultos en los datos. decisiones.
Tarea: manejar datos Tarea: agregación de datos,
Tarea: filtrado de datos, faltantes, transformar y reducción de Tarea: clasificación, Tarea: validación de modelos,
identificación de variables normalizar los datos. dimensionalidad. regresión, agrupación, comparación con resultado
relevantes asociación. anteriores.

También podría gustarte

Análisis de Medallas en Olimpiadas
Aún no hay calificaciones
Análisis de Medallas en Olimpiadas
6 páginas
Ética y Filosofía: Un Análisis Profundo
Aún no hay calificaciones
Ética y Filosofía: Un Análisis Profundo
7 páginas
Acceso a Datos con ADO.NET en C#
Aún no hay calificaciones
Acceso a Datos con ADO.NET en C#
6 páginas
Investigar en La Web Acerca de Los Archivos
Aún no hay calificaciones
Investigar en La Web Acerca de Los Archivos
6 páginas
Ordenamiento de datos en C++
100% (1)
Ordenamiento de datos en C++
7 páginas
Repaso de DDL y DML en SQL
Aún no hay calificaciones
Repaso de DDL y DML en SQL
22 páginas
Plan de Marketing para Empresas Tecnológicas
Aún no hay calificaciones
Plan de Marketing para Empresas Tecnológicas
11 páginas
Tarea 5 Desarrollo de App Web
Aún no hay calificaciones
Tarea 5 Desarrollo de App Web
7 páginas
Tarea 1
Aún no hay calificaciones
Tarea 1
6 páginas
Diseño de Sistema para Salón de Belleza
Aún no hay calificaciones
Diseño de Sistema para Salón de Belleza
7 páginas
Registro de Nombre y Logo en ONAPI
Aún no hay calificaciones
Registro de Nombre y Logo en ONAPI
6 páginas
Introducción a ADO.NET y CRUD en C#
Aún no hay calificaciones
Introducción a ADO.NET y CRUD en C#
10 páginas
Guía Completa sobre CSS y su Uso
Aún no hay calificaciones
Guía Completa sobre CSS y su Uso
7 páginas
Comandos Esenciales de Linux y ZFS
Aún no hay calificaciones
Comandos Esenciales de Linux y ZFS
9 páginas
Proyecto ADO.NET en C# para Citas Médicas
100% (1)
Proyecto ADO.NET en C# para Citas Médicas
11 páginas
Introducción a Aplicaciones Web y Servidores
100% (3)
Introducción a Aplicaciones Web y Servidores
16 páginas
Actividades Clave en Sistemas de Información
Aún no hay calificaciones
Actividades Clave en Sistemas de Información
6 páginas
Uso de DataSet, DataAdapter y DataReader
100% (1)
Uso de DataSet, DataAdapter y DataReader
4 páginas
Diseño de Sistema de Reservas de Viajes
Aún no hay calificaciones
Diseño de Sistema de Reservas de Viajes
17 páginas
Ética Empresarial y Responsabilidad Social
Aún no hay calificaciones
Ética Empresarial y Responsabilidad Social
7 páginas
Análisis Interno y Externo en Empresas
100% (1)
Análisis Interno y Externo en Empresas
8 páginas
Introducción a la Programación Orientada a Objetos
Aún no hay calificaciones
Introducción a la Programación Orientada a Objetos
5 páginas
Arquitectura de Hardware Tarea 2
Aún no hay calificaciones
Arquitectura de Hardware Tarea 2
10 páginas
Ciclo de Vida y Calidad del Software
Aún no hay calificaciones
Ciclo de Vida y Calidad del Software
12 páginas
Evaluación y Clasificación de Puestos
Aún no hay calificaciones
Evaluación y Clasificación de Puestos
12 páginas
QGIS Instalación y Configuración Feb 2020 PDF
Aún no hay calificaciones
QGIS Instalación y Configuración Feb 2020 PDF
55 páginas
Guía de Planificación Empresarial
Aún no hay calificaciones
Guía de Planificación Empresarial
9 páginas
Tarea 6
Aún no hay calificaciones
Tarea 6
8 páginas
Análisis de Sistemas: Diccionario de Datos
Aún no hay calificaciones
Análisis de Sistemas: Diccionario de Datos
5 páginas
Tipos de Sistemas de Información Empresarial
Aún no hay calificaciones
Tipos de Sistemas de Información Empresarial
7 páginas
Administración de Memoria en Sistemas Operativos
Aún no hay calificaciones
Administración de Memoria en Sistemas Operativos
5 páginas
Gestion Humana Trabajo Final 2017
Aún no hay calificaciones
Gestion Humana Trabajo Final 2017
8 páginas
Introducción a las Telecomunicaciones
Aún no hay calificaciones
Introducción a las Telecomunicaciones
6 páginas
Toma de Decisiones en Organizaciones Pequeñas
Aún no hay calificaciones
Toma de Decisiones en Organizaciones Pequeñas
4 páginas
Guía de Recolección OSINT en Pentesting
Aún no hay calificaciones
Guía de Recolección OSINT en Pentesting
2 páginas
Informe sobre Cálculo de Probabilidades
Aún no hay calificaciones
Informe sobre Cálculo de Probabilidades
11 páginas
Actividad VII: Gestión de Bases de Datos
Aún no hay calificaciones
Actividad VII: Gestión de Bases de Datos
8 páginas
Comparativa de Suites Ofimáticas Gratuitas
100% (1)
Comparativa de Suites Ofimáticas Gratuitas
4 páginas
Definiciones Clave en Estadística y Probabilidades
Aún no hay calificaciones
Definiciones Clave en Estadística y Probabilidades
6 páginas
Tarea 5 PRACTICA DE FISICA GENERAL
Aún no hay calificaciones
Tarea 5 PRACTICA DE FISICA GENERAL
4 páginas
Fraude en transacciones de tarjetas de crédito
Aún no hay calificaciones
Fraude en transacciones de tarjetas de crédito
1 página
Tarea V Informatica Gerencial
Aún no hay calificaciones
Tarea V Informatica Gerencial
17 páginas
Guía Completa sobre CSS en Desarrollo Web
Aún no hay calificaciones
Guía Completa sobre CSS en Desarrollo Web
13 páginas
Gestión de Préstamos y Devoluciones Bibliotecarias
Aún no hay calificaciones
Gestión de Préstamos y Devoluciones Bibliotecarias
115 páginas
Autoevaluacion 2 Programación III
Aún no hay calificaciones
Autoevaluacion 2 Programación III
7 páginas
Propuesta de Análisis de Sistemas Informáticos
Aún no hay calificaciones
Propuesta de Análisis de Sistemas Informáticos
8 páginas
Espacio para Subir Trabajo Final
Aún no hay calificaciones
Espacio para Subir Trabajo Final
5 páginas
Tarea 1 Sistema de Automatizacion de Oficinas
100% (1)
Tarea 1 Sistema de Automatizacion de Oficinas
6 páginas
Uapa Programacion Trabajo Final
Aún no hay calificaciones
Uapa Programacion Trabajo Final
9 páginas
Procedimientos Almacenados: Ventajas y Desventajas
100% (1)
Procedimientos Almacenados: Ventajas y Desventajas
2 páginas
Procedimientos Almacenados en DB
Aún no hay calificaciones
Procedimientos Almacenados en DB
3 páginas
Introducción a la Programación Orientada a Objetos
100% (2)
Introducción a la Programación Orientada a Objetos
5 páginas
Tarea 2 Estadistica I Practica
Aún no hay calificaciones
Tarea 2 Estadistica I Practica
15 páginas
Tarea 4
Aún no hay calificaciones
Tarea 4
8 páginas
Enlazando Datos en Windows Forms
Aún no hay calificaciones
Enlazando Datos en Windows Forms
6 páginas
Tarea 2 Mineria de Datos Roger
Aún no hay calificaciones
Tarea 2 Mineria de Datos Roger
9 páginas
Comparativa SQL vs NoSQL: Revisión Científica
Aún no hay calificaciones
Comparativa SQL vs NoSQL: Revisión Científica
34 páginas
Introducción a Bases de Datos NoSQL
Aún no hay calificaciones
Introducción a Bases de Datos NoSQL
13 páginas
2 - Tipos de Bases de Datos Rel No Rel
Aún no hay calificaciones
2 - Tipos de Bases de Datos Rel No Rel
5 páginas
Importancia de la Minería de Datos Empresarial
Aún no hay calificaciones
Importancia de la Minería de Datos Empresarial
6 páginas
Participant Es
Aún no hay calificaciones
Participant Es
5 páginas
Tarea de Matemática Discreta UAPA
Aún no hay calificaciones
Tarea de Matemática Discreta UAPA
4 páginas
Simulación de Facturación en Centro Comercial
Aún no hay calificaciones
Simulación de Facturación en Centro Comercial
12 páginas
Tarea de 9 Estadistica Uapa
Aún no hay calificaciones
Tarea de 9 Estadistica Uapa
6 páginas
Ejercicios de Estadísticas y Probabilidad
Aún no hay calificaciones
Ejercicios de Estadísticas y Probabilidad
7 páginas
Asientos Contables para Lavadero Central
Aún no hay calificaciones
Asientos Contables para Lavadero Central
13 páginas
Entrega de Proyecto: Matemática Discreta
Aún no hay calificaciones
Entrega de Proyecto: Matemática Discreta
18 páginas
Estadísticas y Probabilidad en UAPA
Aún no hay calificaciones
Estadísticas y Probabilidad en UAPA
5 páginas
Tare 1 Estadística Uapa
Aún no hay calificaciones
Tare 1 Estadística Uapa
10 páginas
Contabilidad y Finanzas: Ejercicios Prácticos
Aún no hay calificaciones
Contabilidad y Finanzas: Ejercicios Prácticos
8 páginas
Estado Financiero Ferretería 2015
Aún no hay calificaciones
Estado Financiero Ferretería 2015
4 páginas
Casos Practicos Del SGC
Aún no hay calificaciones
Casos Practicos Del SGC
3 páginas
Seguridad en Fiestas de Fin de Año
Aún no hay calificaciones
Seguridad en Fiestas de Fin de Año
2 páginas
Guía de Juego: Combate y Estrategias
Aún no hay calificaciones
Guía de Juego: Combate y Estrategias
2 páginas
Manual GLL 2-10 Bosch Multilingüe
Aún no hay calificaciones
Manual GLL 2-10 Bosch Multilingüe
218 páginas
Actividades para Fomentar Valores Ambientales
Aún no hay calificaciones
Actividades para Fomentar Valores Ambientales
3 páginas
Producción y Costos de Ostiones
Aún no hay calificaciones
Producción y Costos de Ostiones
28 páginas
Cuentas Contables de Una Empresa Comercial
Aún no hay calificaciones
Cuentas Contables de Una Empresa Comercial
37 páginas
Funcionamiento del Sistema K-Jetronic
Aún no hay calificaciones
Funcionamiento del Sistema K-Jetronic
5 páginas
Seguridad en el Uso del Martillo
Aún no hay calificaciones
Seguridad en el Uso del Martillo
2 páginas
Tarea Derecho Aduanero
Aún no hay calificaciones
Tarea Derecho Aduanero
16 páginas
Caculo Integral 2024-3
Aún no hay calificaciones
Caculo Integral 2024-3
12 páginas
Creación de Tinajas y Mocahuas
Aún no hay calificaciones
Creación de Tinajas y Mocahuas
5 páginas
Ecuaciones Diferenciales Aplicadas
Aún no hay calificaciones
Ecuaciones Diferenciales Aplicadas
7 páginas
Pruebas en Juicio Laboral vs PROFECO
Aún no hay calificaciones
Pruebas en Juicio Laboral vs PROFECO
4 páginas
Conflictos Sociales en El Peru
100% (3)
Conflictos Sociales en El Peru
5 páginas
Compromiso en Adolescentes
Aún no hay calificaciones
Compromiso en Adolescentes
19 páginas
Instrumentos Leica en Topografía I
Aún no hay calificaciones
Instrumentos Leica en Topografía I
15 páginas
Ética y Responsabilidad en la IA
Aún no hay calificaciones
Ética y Responsabilidad en la IA
12 páginas
Libros y útiles Colegio Claret 2022
Aún no hay calificaciones
Libros y útiles Colegio Claret 2022
7 páginas
Catalogo Ledvance Dartel
Aún no hay calificaciones
Catalogo Ledvance Dartel
40 páginas
Guía Práctica # 13
Aún no hay calificaciones
Guía Práctica # 13
18 páginas
Requisitos y Exenciones del Practicaje Marítimo
Aún no hay calificaciones
Requisitos y Exenciones del Practicaje Marítimo
3 páginas
Portafolio de Servicios
67% (3)
Portafolio de Servicios
19 páginas
Misterios del Rey Anu y la Diosa Madre
Aún no hay calificaciones
Misterios del Rey Anu y la Diosa Madre
4 páginas
Saldos y Deudores Detallados
Aún no hay calificaciones
Saldos y Deudores Detallados
51 páginas
Lecciones Aprendidas - Guia
Aún no hay calificaciones
Lecciones Aprendidas - Guia
5 páginas
Estado de Cuenta Tarjeta de Crédito
Aún no hay calificaciones
Estado de Cuenta Tarjeta de Crédito
6 páginas
Importancia del Familiograma Médico
Aún no hay calificaciones
Importancia del Familiograma Médico
3 páginas
Diseño Zapata z01
Aún no hay calificaciones
Diseño Zapata z01
5 páginas
Informe Mensual de Obras en Crucero
Aún no hay calificaciones
Informe Mensual de Obras en Crucero
2 páginas