0% encontró este documento útil (0 votos)
23 vistas24 páginas

Base de Datos Extemp

El documento presenta un examen extemporáneo sobre bases de datos, centrado en el concepto de Data Warehouse y sus características, motivaciones, y el proceso ETL para su creación. Se discuten también los datamarts, el modelado dimensional, y las operaciones OLAP, así como las diferencias entre OLAP y OLTP. Finalmente, se describen los tipos de sistemas OLAP y su utilidad en el análisis de datos empresariales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas24 páginas

Base de Datos Extemp

El documento presenta un examen extemporáneo sobre bases de datos, centrado en el concepto de Data Warehouse y sus características, motivaciones, y el proceso ETL para su creación. Se discuten también los datamarts, el modelado dimensional, y las operaciones OLAP, así como las diferencias entre OLAP y OLTP. Finalmente, se describen los tipos de sistemas OLAP y su utilidad en el análisis de datos empresariales.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad Autónoma de Baja California Sur.

Departamento Académico de Sistemas Computacionales.


Ingeniería en Desarrollo de Software TV.

IDS TV

Examen Extemporáneo Base de Datos TV

Profesor
David Alonso Valdéz Sánchez

Por
Anakary Vega Ornelas

La Paz, Baja California Sur, a 26 de marzo de 2023.


Indice
Concepto Data Warehouse............................................................................................................ 3
Motivaciones...................................................................................................................................3
Características................................................................................................................................4
Datamart.........................................................................................................................................5
Modelado Dimensional.................................................................................................................. 6
Operaciones OLAP........................................................................................................................ 7
Tipos de sistemas OLAP: Los sistemas OLAP (procesamiento analítico en línea)
generalmente se dividen en uno de tres tipos:........................................................................... 9
OLAP vs OLTP............................................................................................................................ 10
Esquemas de Estrella................................................................................................................... 14
Tablas de Hechos..........................................................................................................................16
Dimensiones.................................................................................................................................. 20
Granularidad................................................................................................................................21
Ventajas de incluir la granularidad en el análisis de datos.......................................................21
1. Precisión y exactitud...................................................................................................... 21
2. Flexibilidad y adaptabilidad...........................................................................................22
3. Mejora de la toma de decisiones....................................................................................22
4. Identificación de oportunidades y desafíos....................................................................22
5. Personalización y segmentación.................................................................................... 22
Referencias................................................................................................................................. 23
Concepto Data Warehouse
Un data warehouse es un almacén electrónico donde generalmente una empresa o
organización mantiene una gran cantidad de información. Los datos de un data warehouse deben
almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar. En sí un data
warehouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de
una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de datos de
diversas fuentes sobre todo para fines analíticos y de acceso. Normalmente, un data warehouse se
aloja en un servidor corporativo o en la nube. Los datos de diferentes aplicaciones de
procesamiento de transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su
uso por aplicaciones analíticas y de consultas por usuarios. El concepto de data warehouse fue
acuñado por primera vez por William H. Inmon, considerado por muchos como el padre de data
warehousing.

Motivaciones
Las motivaciones y beneficios de un data warehouse, se podría decir que es una herramienta
indispensable para cualquier empresa moderna y con ambición, ya que permite a los
responsables de la toma de decisiones acceder a datos rápidamente mediante herramientas de
inteligencia empresarial, clientes SQL y otras aplicaciones analíticas. Otras motivaciones son:
● Separar el procesado y análisis del big data de la base de datos transaccionales, lo que
mejora el rendimiento de ambos sistemas.
● Consolidar el big data procedente de distintas fuentes.
● Aportar mayor calidad, coherencia y precisión a los datos que maneja una empresa, lo
que redunda en una mejor toma de decisiones de su equipo directivo.
● Al estar toda la información depositada en un mismo almacén central se garantiza una
mayor calidad de los datos y se optimiza el tiempo necesario para la generación de
informes y análisis.
● Facilitar la eliminación de registros duplicados, errores e información inconsistente.
● Incrementar la consistencia en los informes internos, al uniformar y centralizar las
fuentes de datos que manejan los diferentes departamentos.
● Mejorar la toma de decisiones empresariales.
● Ayudar en la identificación de tendencias y patrones.
Características
William H. Inmon especifica las principales características de un data warehouse que son:

● Orientada al negocio: El Data Warehouse se organiza alrededor de temas específicos de


un problema de negocio y no a las aplicaciones de estas.
● Integrada: Se integran diversas fuentes operacionales a través de un proceso ETL
(extracción, transformación y carga).
● Variante en el tiempo: En un Data Warehouse se mantiene un registro de los datos
históricos para diferentes periodos de tiempo. A diferencia de los datos transaccionales
que comúnmente mantienen el registro más reciente.
● No volátil: La información una vez ingresada en el Data Warehouse no se modifica, ni se
elimina, solo se puede leer y realizar consultas a esta.

En líneas generales, el Data Warehouse es un almacén centralizado de datos, que integra las
diversas transacciones en una empresa.

Para la creación de un Data Warehouse es necesario conocer bien el proceso ETL bajo el cual se
construye un Almacén de Datos:

● Extracción: Corresponde a la extracción de los datos desde las diversas fuentes de datos
(CRM, ERP, etc) a una base de datos intermedia llamada Data Staging Area (DSA).
● Transformación: Es la etapa donde se homogenizan los datos de las diferentes fuentes,
se limpian y se transforman de acuerdo a los indicadores que se quieran almacenar.
● Carga: Los datos una vez limpios y transformados son cargados en el Data Warehouse.

Con este proceso pasamos de diversas fuentes de datos a una base de datos confiable,
centralizada y con información relevante para el negocio.

Para una organización la creación e implementación de un Data Warehouse constituye uno de los
primeros pasos para la implementación de soluciones de Business Intelligence, debido a sus
grandes beneficios como:
● Facilidad de acceso a la información
● Mayor flexibilidad y rapidez de respuesta
● Consolidación y homogeneización de la información
● Mejor comunicación entre departamentos de la empresa
● Entrega de información relevante que antes no se almacenaba
● Se tiene una base confiable para aplicar técnicas de analytics

Datamart
Un data mart es un sistema de almacenamiento de datos que contiene información específica de
la unidad de negocio de una organización. Contiene una parte pequeña y específica de los datos
que la empresa almacena en un sistema de almacenamiento más grande. Las empresas almacenan
en un sistema de almacenamiento más grande. Las empresas utilizan un data mart para analizar
la información específica de cada departamento de manera más eficiente. Brinda datos resumidos
que las partes interesadas clave pueden utilizar para tomar decisiones informadas rápidamente.
Por ejemplo, una empresa puede almacenar datos de varias fuentes, como información de
proveedores, pedidos, datos de sensores, información de empleados y registros financieros en su
almacenamiento de datos. Sin embargo, la empresa almacena información relevante, por
ejemplo, para el departamento de Marketing, como reseñas de redes sociales y registros de
clientes, en un data mart. Un data mart sirve como elemento frontal para los datos de un
departamento. Pueden utilizar un data mart para recuperar y analizar información. Mientras
tanto, una base de datos recopila, administra y almacena información.

Modelado Dimensional
Un modelo de datos dimensional es una forma de organizar y estructurar datos en una base de
datos o almacén de datos para facilitar a las empresas el análisis y la obtención de información a
partir de sus datos. Son particularmente útiles cuando se trata de grandes volúmenes de datos y
cuando los usuarios necesitan explorar datos desde diferentes ángulos o dimensiones. Diferentes
aplicaciones requieren diferentes técnicas de modelado dimensional. Existen principalmente dos
técnicas de modelado: modelos normalizados de entidad-relación y modelado dimensional. Los
modelos normalizados de entidad-relación, están diseñados para eliminar la redundancia de
datos, realizar rápidamente las operaciones de inserción, actualización y eliminación y obtener
los datos dentro de una base de datos. Por el contrario, los modelos dimensionales de datos
dimensionales de Kimball son estructuras desnormalizadas diseñadas para recuperar datos de un
almacenamiento de datos. Utilizan tablas de hechos y dimensiones para mantener un registro de
datos históricos en almacenes de datos. Además, están optimizados para realizar las seleccione
operación y se utilizan en el marco de diseño básico para construir almacenes de datos altamente
optimizados y funcionales.
Operaciones OLAP
El procesamiento analítico en línea por su siglas en inglés de OLAP es un método informático
que permite a los usuarios extraer y consultar datos de manera fácil y selectiva para analizarlos
desde diferentes puntos de vista. Las consultas de inteligencia empresarial OLAP a menudo
ayudan en el análisis de tendencias, informes financieros, previsión de ventas, presupuestos y
otros propósitos de planificación. Por ejemplo, un usuario puede solicitar que se analicen los
datos para mostrar una hoja de cálculo que muestre todos los productos de pelota de playa de una
empresa que se venden en La Paz en el mes de julio, comparar las cifras de ingresos con las de
los mismos productos en septiembre y luego ver una comparación de otras ventas de productos
en La Paz en el mismo periodo de tiempo. Para facilitar este tipo de análisis, los datos se
recopilan de múltiples fuentes de datos y se almacenan en almacenes de datos, luego se limpian y
organizan en cubos de datos. Cada cubo de OLAP contiene datos categorizados por dimensiones
derivadas de tablas de dimensiones en los almacenes de datos. Luego las dimensiones se
completan con miembros que están organizados jerárquicamente. Los cubos OLAP a menudo se
resumen previamente en todas las dimensiones para mejorar drásticamente el tiempo de
consultas en las base de datos relacionales

los analistas pueden realizar cinco tipos de operaciones analíticas OLAP contra estas base de
datos multidimensionales.

● Enrollar (roll-up). También conocida como consolidación o desglose, esta operación


resume los datos a lo largo de la dimensión.
● Profundizar (drill-down). Esto permite a los analistas navegar más profundamente
entre las dimensiones de los datos, por ejemplo, profundizando desde "período de
tiempo" a "años" y "meses" para trazar el crecimiento de las ventas de un producto.
● Cortar (slice). Esto permite que un analista tome un nivel de información para
mostrar, como, por ejemplo, "ventas en 2017".
● Cubo o dado (dice). Esto permite que un analista seleccione datos de múltiples
dimensiones para analizar, como, por ejemplo, "ventas de pelotas de playa azules en
Iowa en 2017".
● Pivotar (pivot). Los analistas pueden obtener una nueva vista de los datos girando los
ejes de datos del cubo.

El software OLAP luego localiza la intersección de dimensiones, como todos los productos
vendidos en la región oriental por encima de un precio determinado durante un período de
tiempo determinado, y los muestra. El resultado es la "medida"; cada cubo OLAP tiene al menos
una o quizás cientos de medidas, que se derivan de la información almacenada en tablas de
hechos en el almacén de datos.

Tipos de sistemas OLAP: Los sistemas OLAP (procesamiento analítico en línea) generalmente
se dividen en uno de tres tipos:
OLAP multidimensional (MOLAP): es OLAP que indexa directamente en una base de datos
multidimensional.

OLAP relacional (ROLAP) : OLAP que realiza un análisis multidimensional dinámico de datos
almacenados en una base de datos relacional.

OLAP híbrido (HOLAP): Es una combinación de ROLAP y MOLAP. HOLAP fue desarrollado
para combinar la mayor capacidad de datos de ROLAP con la capacidad de procesamiento
superior de MOLAP.

OLAP vs OLTP

● El procesamiento analítico en línea (OLAP) es una categoría de herramientas de software


que analizan datos almacenados en una base de datos, mientras que el procesamiento de
transacciones en línea (OLTP) admite aplicaciones orientadas a transacciones en un
sistema de 3 niveles. Arquitectura.
● OLAP crea una plataforma única para todo tipo de necesidades de análisis empresarial
que incluye planificación, elaboración de presupuestos, previsión y análisis, mientras que
OLTP es útil para administrar las transacciones diarias de una organización.
● OLAP se caracteriza por un gran volumen de datos, mientras que OLTP se caracteriza por
grandes números de transacciones cortas en línea.
● En OLAP, un almacén de datos se crea de forma única para que pueda integrar diferentes
fuentes de datos para construir una base de datos consolidada, mientras que OLTP utiliza
los tradicionales DBMS
Parámetros OLTP OLAP

Proceso Es un sistema transaccional en línea. OLAP es un proceso de análisis y recuperación


Gestiona la modificación de la base de de datos en línea.
datos.

Característica Se caracteriza por grandes números de Se caracteriza por un gran volumen de datos.
transacciones cortas en línea.

Funcionalidad OLTP es un sistema de modificación de OLAP es un sistema de gestión de consultas de


bases de datos en línea. bases de datos en línea.

Método OLTP utiliza DBMS tradicional. OLAP utiliza el almacén de datos.

Consulta Insertar, Actualizar y Eliminar Mayoritariamente selecto opera Supuestos de


información de la base de datos. Alcance

Mesa Las tablas de la base de datos OLTP están Las tablas de la base de datos OLAP no están
normalizadas. normalizadas.

Fuente OLTP y sus transacciones son las fuentes Diferentes bases de datos OLTP se convierten
de datos. en la fuente de datos de OLAP.

Integridad de La base de datos OLTP debe mantener la La base de datos OLAP no se modifica con
los datos restricción de integridad de los datos. frecuencia. Por tanto, la integridad de los datos
no es un problema.

Tiempo de Su tiempo de respuesta es de Tiempo de respuesta en segundos a minutos.


respuesta milisegundos.

Calidad de Los datos de la base de datos OLTP Es posible que los datos del proceso OLAP no
datos siempre están detallados y organizados. estén organizados.

Utilidad Ayuda a controlar y ejecutar tareas Ayuda con la planificación, la resolución de


comerciales fundamentales. problemas y el apoyo a las decisiones.
Opera Permitir lectura/escritura operaciones Sólo lee y rara vez escribe.
Desarrollo

Público Es un proceso orientado al mercado. Es un proceso orientado al cliente.

Tipo de Las consultas en este proceso son Complejidad de consultas que involucran
consulta estandarizadas y sencillas. agregaciones

Back-up Copia de seguridad completa de los datos OLAP sólo necesita una copia de seguridad de
combinada con copias de seguridad vez en cuando. La copia de seguridad no es
incrementales. importante en comparación con OLTP

Diseño El diseño de bases de datos está orientado El diseño de bases de datos está orientado a
a aplicaciones. Ejemplo: el diseño de la temas. Ejemplo: Cambios en el diseño de la
base de datos cambia con la industria base de datos con temas como ventas,
como minorista, aerolínea, banca, etc. marketing, compras, etc.

Tipo de Lo utilizan usuarios críticos de datos, Utilizado por usuarios de conocimiento de


usuario como empleados, DBA y profesionales de datos, como trabajadores, gerentes y directores
bases de datos. ejecutivos.

Propósito Diseñado para negocios en tiempo real Diseñado para el análisis de medidas
operaciones comerciales por categoría y atributos.

Métrica de El rendimiento de las transacciones es la El rendimiento de las consultas es la métrica de


rendimiento métrica de rendimiento rendimiento.

Número de Este tipo de usuarios de bases de datos Este tipo de base de datos sólo permite a cientos
usuarios permiten miles de usuarios. de usuarios.

Productividad Ayuda a aumentar el autoservicio y la Ayuda a incrementar la productividad de los


productividad del usuario. analistas de negocios.
Desafío Históricamente, los almacenes de datos Un cubo OLAP no es un almacén de datos de
han sido un proyecto de desarrollo cuya servidor SQL abierto. Por lo tanto, el
construcción puede resultar costosa. conocimiento técnico y la experiencia son
esenciales para administrar el servidor OLAP.

Proceso Proporciona resultados rápidos para los Garantiza que la respuesta a la consulta sea más
datos utilizados diariamente. rápida y constante.

Característica Es fácil de crear y mantener. Permite al usuario crear una vista con la ayuda
de una hoja de cálculo.

Estilo OLTP está diseñado para tener un tiempo Un almacén de datos se crea de forma única
de respuesta rápido, baja redundancia de para que pueda integrar diferentes fuentes de
datos y está normalizado. datos para construir una base de datos
consolidada.
Cualquier sistema Datawarehouse es un sistema OLAP. Los usos de OLAP son los siguientes
● Una empresa podría comparar sus ventas de teléfonos móviles en septiembre con las
ventas de octubre y luego comparar esos resultados con otra ubicación que puede
almacenarse en una base de datos separada.
● Amazon analiza las compras de sus clientes para crear una página de inicio personalizada
con productos que probablemente sean de interés para sus clientes.

Un ejemplo de sistema OLTP es el centro de cajero automático. Supongamos que una pareja
tiene una cuenta conjunta en un banco. Un día ambos simultáneos llegan a diferentes cajeros
automáticos exactamente al mismo tiempo y desean retirar el monto total presente en su cuenta
bancaria. Sin embargo, la persona que complete primero el proceso de autenticación podrá
obtener dinero. En este caso, el sistema OLTP se asegura de que el monto retirado nunca supere
el monto presente en el banco. La clave a tener en cuenta aquí es que los sistemas OLTP están
optimizados para superioridad transaccional en lugar de análisis de datos.
Otros ejemplos de aplicaciones OLTP son:
● Banca en línea
● Reserva de billetes de avión online
● Enviando un mensaje de texto
● Orden de entrada
● Añadir un libro al carrito de compras

Esquemas de Estrella

Introducido en 1996 por Ralph Kimball, un esquema en estrella es una técnica de modelado de
datos multidimensional. Es el tipo de esquema más simple que usan las empresas en
almacenamiento de datos. Según su nombre, un esquema de estrella es como una estrella cuando
se visualiza. Tiene una tabla de hechos en el medio y muchas tablas de dimensiones adjuntas.
Esta estructura simple y desnormalizada la hace muy eficiente para consultar datos.
El Modelo Estrella tiene varias ventajas para el análisis de datos, entre las que se destacan:

● Facilita la comprensión del negocio y los requisitos de los usuarios, ya que las
tablas de dimensiones contienen atributos descriptivos que definen las entidades del
dominio (productos, clientes, tiempos, etc.). Estos atributos permiten expresar las
consultas en un lenguaje natural y cercano al usuario final. Además, las tablas de
dimensiones pueden contener jerarquías y niveles que reflejan la organización lógica
de los datos. Por ejemplo, la dimensión fecha puede tener niveles como día, mes,
trimestre y año.

● Mejora el rendimiento de las consultas, ya que reduce el número de uniones


necesarias para obtener la información deseada. Además, las tablas de hechos suelen
estar indexadas por las claves de dimensiones, lo que acelera la recuperación de los
datos. Al tener un esquema simple y desnormalizado, se evita la redundancia y la
inconsistencia de los datos. También se pueden aplicar técnicas como el
particionamiento o la compresión para optimizar el almacenamiento y la consulta de
los datos.

● Permite la flexibilidad y la escalabilidad del diseño, ya que se pueden agregar o


modificar dimensiones y medidas sin afectar a las demás tablas. También se pueden
crear vistas o agregaciones para simplificar o resumir los datos. El Modelo Estrella
facilita el crecimiento incremental del almacén de datos, ya que se pueden añadir
nuevas tablas de hechos o dimensiones según las necesidades del negocio. Asimismo,
se pueden integrar diferentes fuentes de datos con distintos niveles de detalle o
granularidad.

● Favorece la implementación de herramientas de Business Intelligence (BI), como


Power BI, que se basan en el Modelo Estrella para crear modelos de datos interactivos
y visuales. Estas herramientas permiten explorar los datos desde diferentes
perspectivas y niveles de detalle, aplicando filtros, agrupaciones y cálculos sobre las
medidas y los atributos. También permiten crear informes y paneles personalizados
que faciliten la toma de decisiones basada en los datos.
Características del esquema estelar:

● Cada dimensión en un esquema de estrella se representa con la única tabla de una


dimensión.
● La tabla de dimensiones debe contener el conjunto de atributos.
● La tabla de dimensiones se une a la tabla de hechos utilizando una clave foránea.
● Las tablas de dimensiones no están unidas entre sí.
● La tabla de hechos contendría clave y medida.
● El esquema Star es fácil de entender y proporciona un uso óptimo del disco.
Tablas de Hechos
Una tabla de hechos es una tabla o entidad de un esquema de estrella o copo de nieve que
almacena medidas para medir el negocio, como las ventas, el coste de las mercancías o las
ganancias. Las tablas y entidades de hechos agregan medidas o los datos numéricos de un
negocio. Para medir los datos de una tabla o entidad de hechos, todas las medidas de una tabla o
entidad de hechos debe corresponder al mismo ganó. Para obtener los datos más útiles de una
tabla o entidad de hechos, debe utilizar medidas que sean numéricas y aditivas. La utilización de
estas medidas garantiza que los datos se puedan recuperar y agregar de manera que el negocio
pueda hacer uso de la riqueza de datos de negocio de la base de datos. Las tablas y entidades de
hechos también contienen claves foráneas a las tablas de dimensiones. Estas claves foráneas
relacionan cada fila de datos de la tabla de hechos con sus correspondientes dimensiones y
niveles. Las tablas y entidades de hecho utilizan claves primarias que son claves compuestas.
Una clave compuesta consta de un subconjunto de otras claves. Si una tabla o entidad de un
modelo dimensional utiliza una clave compuesta, esta tabla será una tabla o entidad de hechos.
El uso de claves compuestas hace que la tabla o entidad tenga una relación de muchos a uno con
otras tablas y entidades del modelo dimensional.

Hay tres tipos de tablas y entidades de hechos:


● Transacción: Una tabla de hechos de transacciones o entidad de hechos de transacciones
registra una fila por transacción.
● Periódico: Una tabla de hechos periódicos o entidad de hechos periódicos almacena una
fila para un grupo de transacciones que se realizan a lo largo de un período de tiempo.
● Acumulativo: Una tabla de hechos acumulativos o entidad de hechos acumulativos
almacena una fila para el tiempo de vida total de un suceso. Un ejemplo de una tabla o
entidad de hechos acumulativos registra el tiempo de vida de una aplicación de tarjetas de
crédito desde el momento en que se envía al momento en que se acepta.
Característica Transacción Periódico Acumulativo

Una fila para el tiempo


Una fila por Una fila por período de
Grano de vida total de un
transacción tiempo
suceso

Dimensión de fecha Dimensión de fecha en


Varias dimensiones de
Dimensión en el nivel más bajo la granularidad de fin
fecha
de granularidad de período

Número más alto de


Menos que el tipo de
Número de Más que el tipo de dimensiones cuando se
hechos de
dimensiones hechos periódicos compara con otros tipos
transacciones
de tablas de hechos

Utiliza dimensiones Utiliza dimensiones Utiliza dimensiones


Dimensiones
conformadas conformadas conformadas
conformadas
compartidas compartidas compartidas

Se relaciona con
Se relaciona con
Se relaciona con actividades que tienen
Medidas actividades de
actividades periódicas un tiempo de vida
transacciones
definitivo
Más pequeña que la
tabla de hechos de
Es el mayor La de tamaño más
transacciones, ya que
tamaño. En el nivel pequeño cuando se
Tamaño de base de el grano de la
de grano más compara con las tablas
datos dimensión de fecha y
detallado, tiende a de hechos periódicos y
hora es
crecer muy rápido. de transacciones.
significativamente
mayor.
Funciona mejor que
Funciona bien y se
otros tipos de tablas de
puede mejorar
hechos, ya que los
Rendimiento eligiendo un grano Funciona bien
datos se almacenan en
por encima del más
un grano menos
detallado
detallado

Insertar Sí Sí Sí

Sí, cuando se alcanza un


Actualizar No No objetivo en una
actividad determinada.

Suprimir No No No

Lento en comparación Lento en comparación


Crecimiento de con una tabla de con la tabla de hechos
Muy rápido
tabla de hechos hechos basada en periódicos y de
transacciones transacciones

Media, porque los datos


se almacenan
Baja o muy baja, principalmente en el
Alta,
principalmente porque nivel diario. Sin
principalmente
Necesidad de tablas los datos ya están embargo, los datos de
porque los datos se
de agregación almacenados en un las tablas de hechos
almacenan a un
nivel alto de acumulativos se
nivel muy detallado
agregación encuentran en un nivel
inferior al nivel de
transacción.
Dimensiones

Un concepto importante en el diseño de los procesos de aprovisionamiento de un Data


Warehouse (DWH) es la estrategia de carga de las tablas de dimensión.
Por otra parte, la referencia al término de dimensiones lentamente cambiantes hace referencia a
que los datos de las dimensiones van cambiando poco a poco a lo largo del tiempo, por lo que
aplicar un análisis de tipo temporal se convierte en una necesidad. Las tablas de dimensiones
almacenan información descriptiva sobre los hechos comerciales para ayudar a comprender y
analizar mejor los datos.

Una tabla de dimensiones o entidad de dimensiones es una tabla o entidad de un esquema de


estrella, copo de nieve o constelación que almacena detalles acerca de hechos. Por ejemplo, una
tabla de dimensión de hora almacena los distintos aspectos del tiempo, como el año, trimestre,
mes y día.
Una tabla de dimensiones almacena información descriptiva sobre los valores numéricos de una
tabla de hechos. Por ejemplo, las tablas de dimensiones para una aplicación de análisis de
mercado pueden incluir el tipo de período de tiempo, región comercial y producto.

Las tablas de dimensiones describen los distintos aspectos de un proceso de negocio. Por
ejemplo, si desea determinar los objetivos de ventas, puede almacenar los atributos de dichos
objetivos en una tabla de dimensiones. Las tablas de dimensiones agrupan los datos en la base de
datos cuando el negocio crea informes. Por ejemplo, puede agrupar objetivos de ventas por país,
producto o minorista, y dichas agrupaciones se almacenarán en tablas de dimensiones.

Cada tabla de dimensiones contiene varias columnas y atributos que se utilizan para describir los
procesos de negocio.

Dado que los datos de una tabla de dimensiones se suelen desnormalizar, las tablas de
dimensiones tienen un gran número de columnas. Las tablas de dimensiones contienen menos
filas de datos que la tabla de hechos. Las columnas de una tabla de dimensiones se utilizan para
crear informes o para mostrar resultados de consultas. Por ejemplo, las descripciones textuales de
un informe se crean desde las etiquetas de las columnas de una tabla de dimensiones.
● Grano: Cada tabla de dimensiones tiene sólo un elemento en el nivel más bajo de detalle,
y este elemento se conoce como grano de la dimensión.
● Elementos no de clave: Cada elemento no de clave debe aparecer en una única tabla de
dimensiones.
● Dimensiones de tiempo y fecha: Generalmente tendrá varias dimensiones de tiempo y
fecha en el modelo dimensional.
● Número de dimensiones: Los modelos dimensionales generalmente sólo contienen entre
10 y 15 tablas de dimensiones. Si necesita más dimensiones, fusiones esas tabla de
dimensiones en una sola tabla.
● Creación de relaciones de uno a muchos: Las filas de una tabla de dimensiones
establecen una relación de uno a muchos con la tabla de hechos o los outriggers.
● Dimensiones compartidas: Generalmente, las tablas de dimensiones compartidas por
varias tablas de hechos se denominan dimensiones compartidas. Si ya existen
dimensiones compartidas para cualquiera de las dimensiones del depósito de datos o del
modelo dimensional, debe utilizar las dimensiones compartidas. Si va a desarrollar
nuevas dimensiones que puedan utilizarse en todo el almacén de la empresa, debe
desarrollar un diseño que anticipe las necesidades del almacén de la empresa.

Granularidad
La granularidad se refiere al nivel de detalle o la profundidad con la que se representan los datos
en un sistema de información. En términos simples, es la medida de cuánto se ha dividido un
conjunto de datos en unidades más pequeñas y específicas. Por ejemplo, en una base de datos de
ventas, esta puede variar desde el nivel de detalle de cada transacción individual hasta el nivel
más agregado de ventas mensuales o anuales.
Ventajas de incluir la granularidad en el análisis de datos

1. Precisión y exactitud

Una de las ventajas más evidentes de incluirla en el análisis de datos es la mejora significativa en
la precisión y exactitud de los resultados. Al descomponer los datos en unidades más pequeñas y
específicas, se obtiene una representación más fiel de la realidad. Esto permite a las
organizaciones identificar patrones sutiles, tendencias emergentes y anomalías que de otro modo
podrían pasar desapercibidas en un nivel más agregado.

2. Flexibilidad y adaptabilidad

La granularidad proporciona una flexibilidad sin igual en la forma en que se pueden analizar los
datos. Al tener acceso a diferentes niveles de detalle, los analistas pueden ajustar el enfoque de
sus análisis según las necesidades específicas del momento. Esto significa que pueden
profundizar en detalles específicos cuando sea necesario o adoptar una visión más generalizada
para obtener una comprensión panorámica del panorama.

3. Mejora de la toma de decisiones

Con datos más detallados y precisos a su disposición, las organizaciones pueden tomar
decisiones más informadas y estratégicas. Ya sea en el ámbito financiero, el marketing, la gestión
de inventarios o la atención al cliente, por lo que permite a los líderes empresariales basar sus
decisiones en hechos tangibles en lugar de suposiciones o intuiciones.

4. Identificación de oportunidades y desafíos

Al desglosar los datos en unidades más pequeñas, las organizaciones pueden identificar
oportunidades de mejora y áreas problemáticas que de otro modo permanecerán ocultas. Esto les
permite optimizar sus procesos, enfocar sus recursos en áreas críticas y anticiparse a posibles
desafíos antes de que se conviertan en problemas significativos.
5. Personalización y segmentación

La granularidad también desempeña un papel crucial en la personalización y segmentación de


clientes. Al analizar datos a nivel individual o de segmentos específicos de la población, las
organizaciones pueden ofrecer productos y servicios altamente personalizados que satisfagan las
necesidades y preferencias de sus clientes de manera más precisa.

En conclusión, un data warehouse es una herramienta poderosa para las organizaciones que
desean mejorar su capacidad para analizar datos, tomar decisiones informadas y obtener una
ventaja competitiva en el mercado. La implementación exitosa de un almacén de datos requiere
una comprensión profunda de conceptos como modelado dimensional, esquemas de bases de
datos y técnicas de análisis de datos.
Referencias

Biscobing, J. (n.d.). What is OLAP (online analytical processing)? | Definition from TechTarget.

TechTarget. Retrieved marzo 27, 2024, from

[Link]

de Arregui, M. (2024, febrero 19). La granularidad: la clave para elegir un modelo de base de

datos. OBS Business School. Retrieved marzo 27, 2024, from

[Link]

base-de-datos

Fernandez, D. (2020, abril 3). Esquemas en Data Warehousing. Data Management. Retrieved

marzo 27, 2024, from

[Link]

Halder, N. (2023, octubre 19). In-Depth Guide to Star Schema in Data Warehouse Modeling:

Concepts, Design Principles, and…. Medium. Retrieved marzo 27, 2024, from

[Link]

odeling-concepts-design-principles-and-f540f3c4744b

Kimball, R. (n.d.). ¿Qué es el esquema de estrella? Ventajas y desventajas. Astera Software.

Retrieved marzo 27, 2024, from

[Link]

s/a. (n.d.). ¿Qué es un data mart? - Explicación de los data marts - AWS. Amazon AWS.

Retrieved marzo 27, 2024, from [Link]

s/a. (2017, noviembre 9). YouTube: Home. Retrieved marzo 27, 2024, from

[Link]
s/a. (2017, noviembre 9). YouTube: Home. Retrieved marzo 27, 2024, from

[Link]

ias/

También podría gustarte