0% encontró este documento útil (0 votos)
23 vistas13 páginas

Eva3 Implementacion Datawarehousing

Cargado por

Juampy González
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas13 páginas

Eva3 Implementacion Datawarehousing

Cargado por

Juampy González
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

EVALUACION 3

IMPLEMENTACION DE DATAWAREHOUSE

NOMBRE: Juan Álvarez – Matías Lisperguer – Juan González


CARRERA: Ingeniería en Informática
ASIGNATURA: Arquitectura y Almacenamiento de Datos
PROFESOR: David Zúñiga
FECHA: 28-06-2024
Introduccion:

En el contexto del proyecto para diseñar y desarrollar un Data Warehouse para "FLO ALIMENTOS", es
crucial establecer una estructura que permita la integración y análisis efectivo de datos provenientes de
diversas fuentes. Este documento detalla el proceso de diseño y planificación del Data Warehouse, desde
la identificación de fuentes de datos hasta la selección de herramientas y la justificación del sistema de
gestión de bases de datos elegido. Se enfoca en las necesidades específicas de los usuarios finales y las
etapas clave del proyecto para asegurar un despliegue exitoso que potencie la gestión empresarial y la
toma de decisiones estratégicas.
Actividad: Diseño de la Estructura del DW.

1 Análisis del Problema:


1.1 Identificar las fuentes de datos
1. Registros de Ventas:
▪ Fuentes: Boletas, registros de ventas diarias, registros de ventas históricas.
▪ Contenido: Detalles de cada transacción, incluyendo productos comprados, cantidades,
precios, descuentos aplicados, formas de pago, etc.
▪ Uso: Analizar patrones de ventas, evaluar la efectividad de promociones y descuentos,
realizar estudios de comportamiento del cliente.

2. Registros de Inventario
▪ Fuentes: Sistemas de inventario, informes de almacén.
▪ Contenido: Datos históricos de stock, fechas de ingreso, fechas de caducidad, volumen de
productos manejados, merma.
▪ Uso: Optimizar la gestión de inventarios, evitar rupturas de stock, minimizar el exceso de
inventario, mejorar la rotación de productos.

3. Información de Proveedores
▪ Fuentes: Registros de compras, contratos con proveedores, sistemas de gestión de
proveedores.
▪ Contenido: Datos de proveedores, información de contacto, registro de compras históricas,
cotizaciones.
▪ Uso: Evaluar el desempeño de los proveedores, negociar mejores condiciones, asegurar la
calidad y disponibilidad de los productos.

4. Clientes
▪ Fuentes: Libro de sugerencias, registros de reclamos y denuncias, sistemas de CRM,
programas de fidelización.
▪ Contenido: Sugerencias, reclamos, denuncias, devoluciones, información de programas de
fidelización.
▪ Uso: Mejorar la experiencia del cliente, personalizar ofertas y promociones, desarrollar
estrategias de marketing segmentadas.

1.2 Determinar las necesidades de los usuarios finales


1. Gerentes:
▪ Necesidades: Acceso a informes estratégicos y dashboards que muestren el rendimiento
global de las tiendas y análisis comparativo de sucursales.
▪ Objetivo: Tomar decisiones estratégicas y operativas basadas en información clara, simple
y al grano.

2. Analistas de Datos:
▪ Necesidades: Acceso a datos detallados y herramientas de análisis para realizar estudios de
tendencias, segmentación de clientes, evaluación de patrones de venta y análisis de
efectividad de marketing.
▪ Objetivo: Proporcionar insights valiosos para la toma de decisiones, generar reportes,
identificar oportunidades de negocio y áreas de mejora.

3. Personal de Marketing:
▪ Necesidades: Información de programas de fidelización, ventas históricas, y servicio al
cliente.
▪ Objetivo: Estudiar el impacto de campañas de marketing, analizar la atención al cliente y
encontrar aspectos a mejorar.

4. Personal de Operaciones y Logística:


▪ Necesidades: Datos sobre niveles de inventario, tiempos de reabastecimiento, rendimiento
de proveedores y eficiencia operativa en las tiendas.
▪ Objetivo: Optimizar la gestión de inventarios, asegurar la disponibilidad de productos,
mejorar la cadena de suministro y reducir costos operativos.

5. Equipo de Finanzas:
▪ Necesidades: Informes financieros detallados, análisis de costos y beneficios, monitoreo de
presupuestos y previsión de ventas.
▪ Objetivo: Gestionar el presupuesto, evaluar el rendimiento financiero y planificar
inversiones y gastos futuros.
2 Diseño del esquema:
2.1 Definir modelo según las necesidades analíticas.

Optamos por el modelo Galaxia debido que identificamos la necesidad de múltiples tablas de
hechos. Este modelo también ofrece una estructura escalable, al facilita la incorporación de nuevas tablas
de hechos en el futuro sin interferir con las ya existentes, asegurando así la flexibilidad del
datawarehouse.

2.2 Definir las tablas de hechos y dimensiones.


1. Hechos: Producto, Comentario, Inventario.
▪ VentaProducto: Representa cada venta de cada producto.
▪ Comentario: Los comentarios dejados por clientes en libros de sugerencias, reclamos,
aplicaciones, etc.
▪ Inventario: Productos ingresados a la bodega.
2. Dimensiones: Tiempo, Medio, Cliente, Promoción, Boleta, FormaPago, Proveedor, Sucursal,
Producto
▪ Tiempo: Fecha y hora
▪ Medio: Plataforma por la cual se hizo el comentario (Libro de sugerencias, aplicaciones,
etc.).
▪ Cliente: Información del cliente.
▪ Promoción: Información de las promociones.
▪ Boleta: Información de la boleta.
▪ FormaPago: Distintos métodos de pago (Efectivo, Debito, Crédito, Gifcard).
▪ Proveedor: Información del proveedor del producto.
▪ Sucursal: Sucursal de la tienda.
3 ETL (Extract, Transform, Load):
3.1 Proceso ETL para Integrar Datos de Diversas Fuentes.

1. Extracción de Datos

Se extraerán datos de las siguientes fuentes principales:

▪ Registros de Ventas: Boletas, registros de ventas diarias, registros históricos.


▪ Registros de Inventario: Sistemas de inventario, informes de almacén.
▪ Información de Proveedores: Registros de compras, contratos, sistemas de gestión.
▪ Clientes: Libros de sugerencias, registros de reclamos, sistemas de CRM.

2. Transformación de Datos

Durante la transformación de datos, se realizarán las siguientes operaciones:

▪ Integración de datos de múltiples fuentes en un formato coherente para la carga.


▪ Conversión de formatos de datos para asegurar consistencia (por ejemplo, fechas y
códigos de productos).
▪ Validación de datos para asegurar la integridad y consistencia antes de la carga en el
datawarehouse.
▪ Enriquecimiento de datos con información adicional relevante para análisis
posteriores.

3. Carga de Datos

Los datos transformados y validados se cargarán en el datawarehouse utilizando técnicas que garanticen
la integridad y la eficiencia del proceso de carga.
3.2 Transformaciones Necesarias para Limpiar y Estandarizar los Datos

Durante el proceso de Extracción, Transformación y Carga (ETL), se llevarán a cabo las siguientes
transformaciones:

1. Limpieza de Datos:

▪ Eliminación de registros duplicados.


▪ Corrección de errores tipográficos y valores inconsistentes.
▪ Eliminación de valores nulos o vacíos.

2. Estandarización:

▪ Normalización de nombres y formatos de datos (por ejemplo, fechas, códigos de


productos).
▪ Conversión de unidades de medida a estándares comunes si es necesario.

3. Validación de Datos:

▪ Verificación de integridad referencial entre diferentes conjuntos de datos.


▪ Validación de la consistencia y coherencia de los datos.

4. Transformaciones de Derivación:

▪ Creación de nuevas columnas calculadas o derivadas para análisis avanzados (por


ejemplo, márgenes de beneficio, índices de rotación de inventario).

5. Integración de Datos:

▪ Combina y reconcilia datos de múltiples fuentes en un único formato coherente y


compatible.
Actividad: Selección del DBMS.

1 Evaluación de opciones de DBMS:


1.1 Sistemas considerados
1. Oracle Database:
Es uno de los SGBD más populares y utilizados en grandes empresas. Es conocido por su rendimiento,
escalabilidad y seguridad. Ofrece características avanzadas para la gestión de datos y es ampliamente
utilizado en aplicaciones empresariales críticas.

2. Microsoft SQL Server:


Es un SGBD desarrollado por Microsoft, ampliamente utilizado en entornos corporativos. Ofrece una
integración estrecha con otros productos de Microsoft y proporciona herramientas avanzadas de análisis y
gestión de datos.

3. PostgreSQL
Es un SGBD de código abierto, conocido por su estabilidad, escalabilidad y compatibilidad con estándares
SQL. Es altamente extensible y ofrece muchas características avanzadas, siendo una opción popular para
aplicaciones web y empresariales.

4. MySQL
MySQL es otro SGBD de código abierto, ampliamente utilizado para aplicaciones web. Es conocido por su
velocidad y facilidad de uso. MySQL es una opción popular para pequeñas y medianas aplicaciones que
requieren un SGBD confiable y rápido.

5. IBM Db2:
Es un SGBD desarrollado por IBM, utilizado principalmente en entornos empresariales. Ofrece una gran
escalabilidad y rendimiento, junto con herramientas avanzadas de gestión y análisis de datos.

6. Amazon Redshift
Es un servicio de almacenamiento de datos basado en la nube, desarrollado por Amazon Web Services
(AWS). Es conocido por su alta escalabilidad y rendimiento en la gestión de grandes volúmenes de datos,
siendo ideal para aplicaciones de análisis de datos en la nube.
1.2 Evaluar factores como escalabilidad, rendimiento, costo, compatibilidad con las
fuentes de datos y facilidad de uso.

2. Oracle Database:
▪ Escalabilidad: Muy alta, soporta grandes volúmenes de datos y transacciones.
▪ Rendimiento: Conocido por su alto rendimiento en aplicaciones empresariales críticas.
▪ Costo: Costoso, especialmente en versiones empresariales con todas las características.
▪ Compatibilidad: Compatible con una amplia variedad de fuentes de datos y aplicaciones.
▪ Facilidad de Uso: Requiere conocimientos avanzados para administración y optimización.

3. Microsoft SQL Server:


▪ Escalabilidad: Alta, especialmente adecuado para entornos empresariales.
▪ Rendimiento: Alto, con buenas capacidades de análisis y gestión de datos.
▪ Costo: Medio-Alto, dependiendo de la edición y características necesarias.
▪ Compatibilidad: Alta, especialmente con otros productos de Microsoft.
▪ Facilidad de Uso: Alta, con una interfaz de usuario intuitiva y buena documentación.

4. PostgreSQL
▪ Escalabilidad: Alta, soporta grandes volúmenes de datos y es extensible.
▪ Rendimiento: Alto, con características avanzadas y buena optimización.
▪ Costo: Bajo, es de código abierto y gratuito.
▪ Compatibilidad: Amplia, compatible con muchos estándares SQL y extensiones.
▪ Facilidad de Uso: Media-Alta, requiere cierta configuración, pero es muy flexible.

5. MySQL:
▪ Escalabilidad: Media, adecuado para aplicaciones pequeñas y medianas.
▪ Rendimiento: Medio-Alto, rápido y eficiente para aplicaciones web.
▪ Costo: Bajo, es de código abierto y gratuito.
▪ Compatibilidad: Alta, ampliamente compatible con muchas aplicaciones web.
▪ Facilidad de Uso: Alta, sencillo de administrar y configurar.

6. IBM Db2:
▪ Escalabilidad: Muy alta, soporta grandes volúmenes de datos y transacciones.
▪ Rendimiento: Muy alto, con optimización avanzada y características de gestión.
▪ Costo: Alto, especialmente en versiones empresariales.
▪ Compatibilidad: Alta, compatible con múltiples fuentes de datos y aplicaciones.
▪ Facilidad de Uso: Media, requiere conocimientos avanzados para administración.

7. Amazon Redshift:
▪ Escalabilidad: Muy alta, ideal para grandes volúmenes de datos en la nube.
▪ Rendimiento: Muy alto, optimizado para análisis de datos en la nube.
▪ Costo: Variable, depende del uso y la demanda.
▪ Compatibilidad: Alta, especialmente con otras herramientas de AWS.
▪ Facilidad de Uso: Alta, con una interfaz amigable y facilidad para integración en la nube.

2 Justificación de la selección:
2.1 Análisis comparativo.
Oracle Microsoft SQL Amazon
Característica PostgreSQL MySQL IBM Db2
Database Server Redshift
Escalabilidad Muy Alta Alta Alta Media Muy Alta Muy Alta
Rendimiento Muy Alto Alto Alto Medio-Alto Muy Alto Muy Alto
Variable (según
Costo Alto Medio-Alto Bajo Bajo Alto
uso)
Amplia Alta Amplia Alta
Compatibilidad Alta (soporte
(soporte para (especialmente (compatible Alta (amplia (especialmente
con Fuentes de para múltiples
múltiples con productos con muchos compatibilidad) para datos en
Datos fuentes)
fuentes) Microsoft) estándares) la nube)
Alta
Media Media
(integración Media-Alta Alta (facilidad
Facilidad de (requiere Alta (sencillo (requiere
con (extensible y de uso en la
Uso conocimientos de administrar) conocimientos
herramientas configurable) nube)
avanzados) avanzados)
Microsoft)

2.2 Elección
Escogimos PostgreSQL como sistema de gestión de bases de datos para la implementación del
Datawarehouse (DW) de "FLO ALIMENTOS" por varias razones. PostgreSQL se destaca por su bajo costo,
además de su excelente escalabilidad, rendimiento, compatibilidad con estándares, extensibilidad y
facilidad de uso. Estas características hacen de PostgreSQL la opción ideal para el Datawarehouse de "FLO
ALIMENTOS", asegurando una gestión eficiente y efectiva de los datos en crecimiento de la empresa.

1. Costo:
Es un sistema de gestión de bases de datos de código abierto y gratuito. Esto lo convierte en una opción
muy atractiva desde el punto de vista económico, especialmente para empresas que buscan minimizar
costos sin sacrificar la calidad y funcionalidad del sistema.

2. Escalabilidad:
Es altamente escalable, lo que significa que puede manejar grandes volúmenes de datos y un número
significativo de transacciones simultáneas. Esta característica es crucial para "FLO ALIMENTOS", dado el
crecimiento continuo y la necesidad de gestionar datos de múltiples fuentes y sucursales.

3. Rendimiento:
Ofrece un rendimiento robusto, con capacidades avanzadas de optimización de consultas y gestión de
transacciones. Su arquitectura permite un procesamiento eficiente de grandes conjuntos de datos, lo cual
es esencial para las operaciones diarias y análisis de datos en "FLO ALIMENTOS".

4. Compatibilidad con Estándares:


Es compatible con una amplia variedad de estándares SQL, incluyendo SQL:2008, y soporta muchas de las
características avanzadas de SQL. Esta compatibilidad asegura que el sistema puede integrarse fácilmente
con otras aplicaciones y herramientas que cumplen con estos estándares.

5. Extensibilidad:
Una de las principales fortalezas de PostgreSQL es su extensibilidad. Esto significa que los usuarios pueden
agregar nuevas funcionalidades al sistema mediante la creación de extensiones, tipos de datos
personalizados, funciones, operadores y más. Esta característica permite a "FLO ALIMENTOS" adaptar el
sistema a sus necesidades específicas sin depender de actualizaciones del núcleo del software.
6. Configurabilidad:
Es altamente configurable, lo que permite a los administradores de bases de datos ajustar múltiples
parámetros para optimizar el rendimiento y la seguridad del sistema. Algunos aspectos configurables
incluyen:
▪ Configuración del almacenamiento: Ajuste de parámetros de caché y buffers.
▪ Ajuste de consultas: Optimización de planes de ejecución y paralelismo.
▪ Seguridad: Configuración detallada de permisos y autenticación.

7. Facilidad de Uso:
Tiene una comunidad activa que proporciona documentación extensa y soporte. Las herramientas gráficas
de administración como pgAdmin facilitan la gestión de la base de datos, haciendo que sea accesible tanto
para administradores experimentados como para aquellos que son nuevos en el sistema.
Actividad: Gestión del Proyecto.
1 Planificación y asignación de tareas:
1.1 Cronograma
[Archivo Adjunto]

1.2 Distribución de actividades entre los roles especificados:

Investigación:

▪ Análisis de la problemática: Juan González


▪ Identificar fuentes de datos: Juan González
▪ Estudio de la corporación: Matias Lisperguer
▪ Análisis de herramientas: Juan González

Planificación:

▪ Diseñar solución: Juan Alvarez - Juan González - Matias Lisperguer


▪ Crear modelo de data warehouse: Juan Alvarez – Juan González
▪ Seleccionar herramientas: Juan González
▪ Definir estándar de datos: Juan González

Informe:

▪ Desarrollo de informe: Matias Lisperguer


▪ Reunión para el análisis de la propuesta: Matias Lisperguer

Implementación:

▪ ETL [Extract]: Juan Alvarez


▪ ETL [Transform]: Juan Alvarez
▪ ETL [Load]: Juan Alvarez
▪ Implementación Datawarehouse: Juan Alvarez – Juan González
▪ Documentación: Juan Alvarez

Calidad:

▪ Pruebas unitarias: Juan Alvarez


▪ Pruebas de integración: Juan Alvarez
▪ Pruebas funcionales: Juan Alvarez
▪ Pruebas de extremo a extremo: Juan Alvarez
▪ Pruebas de aceptación: Juan Alvarez
▪ Pruebas de rendimiento: Juan Alvarez

Despliegue:

▪ Reunión de entrega: Matias Lisperguer


▪ Capacitación al usuario final: Matias Lisperguer
Seguimiento:

▪ Seguimiento: Juan Alvarez – Juan González

2 Monitoreo y ajustes:

Reuniones Periódicas: Para asegurar el cumplimiento de los plazos y la calidad del trabajo, llevamos a cabo
reuniones el primer día hábil de cada semana.

Ajuste de Tareas y Recursos: A medida que el proyecto avanza, ajustamos las asignaciones de tareas y
recursos para optimizar la eficiencia y mantener el cumplimiento de los plazos establecidos, estos ajustes
se evaluaran y anunciara en las reuniones semanales.

Lista de Herramientas:

• JIRA: Plataforma integral para la gestión ágil de proyectos, ideal para la planificación, seguimiento
y gestión de tareas.
• PostgreSQL: Sistema robusto de gestión de bases de datos, crucial para el almacenamiento y
procesamiento eficiente de datos en el data warehouse.

Conclusión:

En conclusión, el diseño e implementación del Data Warehouse para "FLO ALIMENTOS" se centra en
integrar eficazmente datos clave como ventas, inventarios, proveedores y clientes. PostgreSQL fue elegido
por su escalabilidad, rendimiento sólido y bajo costo, adecuándose bien a las necesidades operativas y
analíticas. La planificación detallada y la distribución de tareas entre roles aseguran calidad y optimización
continua. Este proyecto no solo centraliza la información empresarial, sino que también impulsa la toma
de decisiones estratégicas basadas en datos precisos y accesibles.

También podría gustarte