0% encontró este documento útil (0 votos)
61 vistas8 páginas

Tare 2 Proceso Etl

este proyecto uapa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
61 vistas8 páginas

Tare 2 Proceso Etl

este proyecto uapa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD ABIERTA PARA ADULTOS

ESCUELA DE INGENIERIA Y TECNOLOGIA

Carrera:
Ingeniería de Software.

Asignatura:
Minería de datos.

Tema:
Procesó ETL y KDD

Facilitador:
Tomas F. Ramírez Pérez.

Participante:
Wilson Antonio Muñoz Morales. Mat.100015865.

Fecha:
23 de noviembre del 2024.

Santiago de los Caballeros,


República Dominicana.
1. Elabora una infografía del proceso ETL de datos.

https://www.canva.com/design/DAGXTf2D2w4/Y7wDIYzAc7em8Om2Wl3-
Lg/edit?utm_content=DAGXTf2D2w4&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton
2. Elabora una tabla comparativa entre datos estructurado, semi-estructurado y no estructurado.

Características Datos Estructurados Semi-estructurado No Estructurados


Definición Datos organizados en formato predefinidos y Datos que no tienen un esquema rígido, Datos sin un formato predefinido o
fijo, como base de datos relacionado. ni un formato estrictamente definido estructura clara.
Formato Tablas con filas, columnas y un esquema. Marcado con etiquetas, pero no siguen Sin formato definido.
un esquema.
Facilidad para Es fácil, ya que los datos don consistentes y Moderadamente fácil, Se requiere Difícil, ya que se necesita
analizar se pueden consultar con SQL. herramientas que interpreten el formato. procesamiento adicional para
extraer información relevante.
Ejemplo básico Base de datos relacionales, hoja de Excel. XML, JSON, correos electrónicos. Imagen, videos, publicaciones en
rede sociales, entre otros.
Acceso y consulta Fácil acceso y consulta median SQL Se necesita lenguajes de consulta Difícil acceder y analizar sin
especializado (como Xpath para XML). procesamiento adicional.
Almacenamiento Almacenados en base de datos relacionales Almacenados en base de datos NoSQL Almacenados en sistema de
o archivos. archivos o almacene en la nube.
Flexibilidad Baja, ya que los datos deben cumplir con una Alta, ya que permite cierta flexibilidad, Muy alta, no requiere estructura
estructura predefinida. pero con algún grado de organización. previa, pero carece de consistencia
Tamaño Generalmente más pequeño y manejable. Puede variar en tamaño a menudo más Muy grande puede incluir grandes
grande. volúmenes de datos.
Ejercicios de Análisis fácil y rápido gracias a su estructura. Análisis mas complejo, pero posible con Análisis complicado, requiere
análisis herramientas adecuadas. técnica de minería de datos.
Ejemplo de uso Información financiera, inventarios, registros Datos de redes sociales, logs de Material multimedia, correos
académicos. servidores, archivos de configuración. electrónicos, documentos en textos
libre.
Ventaja Consultas eficientes Flexibilidad Captura amplia
Desventaja Menos flexibilidad Dificultad en análisis Dificultad en organización.
3 describe tres bases de datos SQL y tres No SQL. Según lo visto
en que escenario deberíamos usar una u otra.
Bases de datos SQL:
✓ MySQL
• Descripción: Sistema de gestión de base de datos
relacional de código abierto, Utiliza SQL para la
consulta de datos.
• Usos comunes: sitios web, aplicaciones
empresariales, sistemas de gestión de contenido, y
comercio electrónico.
✓ PostgreSQL
• Descripción: base de datos relacional avanzada y de
código abierto que soporta características como
transacciones ACID y consultas complejas.
• Usos comunes: aplicaciones que requieren integridad
de datos, análisis de datos y sistemas empresariales.
✓ Microsoft SQL Server
• Descripción: una base de datos relacional robusta y
comercializada por Microsoft, que ofrece características
avanzadas de seguridad, alta disponibilidad y análisis
de datos
• Usos comunes: empresas grandes que requieren alta
isponibilidad, seguridad avanzada y escalabilidad, como
sistema ERP, CRM, y aplicaciones empresariales
complejas.
Bases de datos No SQL:
✓ MongoDB
• Descripción: es una base de datos NoSQL orientada a
documentos que almacena datos en formato BSON
(una extensión de JSON).
• Usos comunes: aplicaciones que requieren flexibilidad
en el esquema, como aplicaciones móviles y análisis de
grandes volúmenes de datos.
✓ Cassandra
• Descripción: es una base de datos distribuida, de
código abierto diseñada para manejar grandes
cantidades de datos en múltiples servidores sin un
punto único de fallo. Utiliza un modelo de datos en
columnas.
• Usos comunes: perfecta para aplicaciones que
necesitan alta disponibilidad, tolerancia a fallos y
escalabilidad masiva, como sistemas de
recomendación, análisis en tiempo real y aplicaciones
móviles con grandes volúmenes de datos.
✓ Redis
• Descripción: es una base de datos en memoria que
funciona como un almacén de estructuras de datos,
ideal para aplicaciones que requieren alta velocidad.
• Usos comunes: cache de datos, sistema de
.mensajería en tiempo real, y análisis en tiempo real.
Cuando usar usar SQL y cuando usar NoSQL.
Usar SQL cuando:
• Estructura fija: tu datos tienen una estructura bien definida y no cambia
con frecuencia.
• Transacciones complejas: necesita garantizar la integridad de los
datos mediante transacciones ACID.
• Consulta compleja: requieres realizar consultas complejas y uniónes
entre tablas.
Usar NoSQL cuando:
• Flexibilidad de esquema: tus datos son semiestructurados o no
estructurados, y pueden cambiar con frecuencia.
• Escalabilidad horizontal: necesita escalar tu base de datos fácilmente
a través de múltiples servidores.
• Alto rendimiento: requieres accesos rápido a datos y operaciones de
lectura/escritura de alto rendimiento.
4 Diferencias entre un ingeniero de datos y un científico de datos.
Un ingeniero de datos:
• Se centra en la infraestructura y la preparación de datos.
• Construye y mantiene sistemas para almacenar y acceder a los
datos.
• Limpia y transforma los datos para su análisis.
• Optimiza el rendimiento de los sistemas de datos.
Un científico de datos:
• se enfoca en el análisis y el modelado de datos.
• Desarrolla modlos y algoritmos para predecir patrones.
• Extrae información y conocimientos de los datos.
• Comunica resultados a través de visualizaciónes y apoya a la toma de
decisiones basada en datos.
5. Elabora un mapa conceptual del Proceso KDD en minería de datos.

Proceso KDD

Es un conjunto de paso interrelacionados que se


siguen para descubrir patrones útiles y
conocimiento a partir de grandes volúmenes de
datos

Selección de datos Preprocesamiento transformación Minería de datos Evaluación y interpretación

Definición: identificación y Definición: consiste en la Definición: modificación de Definición: aplicación de Definición: evaluar los
extracción de los datos limpieza y preparación de los datos para que sean mas técnicas de modelos y patrones descubiertos para
relevantes del conjunto de datos para su análisis. adecuados para el modelo. aprendizaje automático para determinar su utilidad e
datos. identificar patrones en los interpretabilidad.
Objetivo: eliminar Objetivo: convertir los datos datos.
Objetivo: seleccionar las inconsistencia y errores en den un formato adecuado Objetivo: asegurar que los
fuentes de datos que los datos para mejorar la para los algoritmos de Objetivo: extraer patrones sean relevante,
contienen la información calidad de los datos minería de datos. conocimiento útil y patrones preciso y útil para la toma de
necesaria para el análisis. ocultos en los datos. decisiones.
Tarea: manejar datos Tarea: agregación de datos,
Tarea: filtrado de datos, faltantes, transformar y reducción de Tarea: clasificación, Tarea: validación de modelos,
identificación de variables normalizar los datos. dimensionalidad. regresión, agrupación, comparación con resultado
relevantes asociación. anteriores.

También podría gustarte