0% encontró este documento útil (0 votos)

19 vistas36 páginas

Gov 3

Cargado por

jjcastrillong

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

19 vistas36 páginas

Gov 3

Cargado por

jjcastrillong

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Tema 3

Gobierno del Dato y Toma de Decisiones

Data warehouse y data lake

Índice
Esquema

Ideas clave

3.1. Introducción y objetivos

3.2. Procesos ETL

3.3. Almacén de datos (data warehouse)

3.4. Lago de datos (data lake)

3.5. Referencias bibliográficas

A fondo

Azure data lake storage tutorial

Desarrollo de un cubo OLAP con Schema Workbench de

Pentaho

Creando una ETL con las herramientas de Pentaho 6

ETL vs. ELT

Test
Esquema

Gobierno del Dato y Toma de Decisiones 3

Tema 3. Esquema
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

3.1. Introducción y objetivos

En el presente tema entenderemos el proceso técnico que deben seguir los datos

para pasar de datos brutos a transformarse en un data warehouse o un data lake,

dependiendo de las necesidades empresariales.

Los objetivos de este tema son:

▸ Identificar cada uno de los pasos del proceso ETL: extracción, transformación y

carga.

▸ Estudiar el concepto de data warehouse y diferenciar los tipos de esquemas.

▸ Comprender la diferencia entre un data warehouse y un data lake.

Gobierno del Dato y Toma de Decisiones 4

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

3.2. Procesos ETL

Como sus siglas indican (ETL), consiste en la extracción, transformación y carga

de los datos, de modo que puede aﬁrmarse que es una parte fundamental de este

proceso. Antes de guardar los datos, deben ser transformados, limpiados, ﬁltrados y

redeﬁnidos. Como ya hemos mencionado, la información que tienen las empresas en

los sistemas no está preparada para la toma de decisiones (Ong et al., 2017).

El proceso de ETL consume entre el 60 y el 80 % del tiempo de un proyecto de

business intelligence, por lo que es un proceso fundamental en el ciclo de vida del

proyecto (Eckerson y White, 2003). Esta parte del proceso de construcción del data

warehouse (en adelante, DW) es costosa y consume una parte signiﬁcativa de todo

el proceso, razón por la que se utilizan recursos, estrategias, habilidades

especializadas y tecnologías. El proceso ETL va más allá del transporte de los datos

de las fuentes a la carga dentro del DW, ya que añade un valor signiﬁcativo a los

datos.

Una parte del proceso ETL se encarga de (Villanueva, 2011):

▸ Eliminar errores y corregir datos faltantes.

▸ Proporcionar medidas documentadas de la calidad de los datos.

▸ Supervisar el flujo de los datos transaccionales.

▸ Ajustar y transformar los datos de múltiples fuentes en uno solo.

▸ Organizar los datos para su fácil uso por los usuarios y las herramientas.

El proceso ETL es intuitivo y fácil de entender. La idea fundamental del proceso

ETL es tomar los datos de las diferentes fuentes de información para depositarlos sin

errores en el data warehouse. Los procesos de limpieza y transformación de esa

Gobierno del Dato y Toma de Decisiones 5

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

información son mucho más complejos de lo que se cree. Pueden dividirse en tareas

especíﬁcas, dependiendo de las características de las fuentes de datos, los objetivos

de la empresa, las herramientas existentes y las características del DW final.

E l desafío para un correcto desarrollo del proceso ETL es planificar

adecuadamente la cantidad de tareas. Para esto, es preciso conservar la

perspectiva sencilla e intuitiva del proceso.

El proceso ETL es obligatorio para acceder a los datos que formarán parte del data

warehouse. El proceso ETL se divide en cuatro etapas:

Figura 1. Etapas del proceso ETL. Fuente: elaboración propia.

Etapas

Extracción

Físicamente, este proceso extrae los datos de las distintas fuentes de información.

En este momento, los datos están en la forma en la que se almacenan, en bruto. La

extracción de los datos puede realizarse de forma manual o utilizando herramientas

de ETL.

Durante el proceso de ETL, una de las primeras tareas que debe realizarse es la

Gobierno del Dato y Toma de Decisiones 6

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

extracción de la información más relevante, generalizar al data warehouse

(Theodoratos et al., 2001).

Para la extracción pueden usarse los siguientes métodos:

▸ Extracción estática: tiene lugar cuando el data warehouse necesita ser rellenado

por primera vez. La detección de cambios se realiza físicamente mediante la

comparación de dos imágenes (una correspondiente a la extracción anterior y otra, a

la actual).

▸ Extracción incremental: es utilizada para actualizar los data warehouse de forma

regular, aprovecha los cambios aplicados a los datos de origen desde la última
extracción.

Finalmente, conviene recordar que el objetivo principal de esta etapa es extraer tan

solo aquellos datos de los sistemas transaccionales que son necesarios y

prepararlos para el resto de los subprocesos de ETL. Para ello, deben determinarse

las mejores fuentes de información, las de mejor calidad.

Limpieza

Este proceso recupera los datos de la base de datos u otro tipo de fuente y

comprueba la calidad, elimina los duplicados y, cuando es posible, corrige los valores

erróneos y completa los valores incompletos, etc. Ejemplo de algunos errores más

comunes:

▸ Datos duplicados: un cliente es registrado varias veces en la misma empresa.

▸ Inconsistencia en los datos: en la dirección de una persona, el código postal no

corresponde a la ciudad donde vive.

▸ Inconsistencia de valores: aparece en primer lugar un valor y posteriormente

aparece el mismo valor de otra forma. Por ejemplo: primero, escribir el país como

USA y, luego, digitarlo completo (Estados Unidos de Norteamérica).

Gobierno del Dato y Toma de Decisiones 7

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En particular, hay que tener en cuenta que estos tipos de errores son muy frecuentes

cuando se manejan múltiples fuentes y se ingresan datos manualmente.

Las principales características de limpieza de datos que se encuentran en las

herramientas de ETL son la rectiﬁcación y la homogeneización. Utilizan

diccionarios especíﬁcos para rectiﬁcar errores de digitalización y para reconocer

sinónimos, además de la limpieza basada en reglas para imponer normas

específicas de dominio y definir asociaciones apropiadas entre valores.

Transformación

Este proceso recupera los datos limpios y de alta calidad. Los organiza y resume

en los distintos modelos de análisis. El resultado de este proceso es la obtención de

datos limpios, consistentes, resumidos y útiles. La transformación incluye cambios de

formato, sustitución de códigos, valores derivados y agregados.

La transformación es el núcleo del proceso. Convierte los datos de su formato

original a un formato de almacén de datos especíﬁco. Si se implementa una

arquitectura de dos capas, esta fase genera su capa de datos conciliados.

Independientemente de la presencia de una capa de datos conciliados, establecer

una correspondencia entre la capa de datos de origen y la de depósito de datos

generalmente se diﬁculta debido a la presencia de muchas fuentes diferentes y

heterogéneas.

Los siguientes puntos deben rectificarse en esta fase:

▸ Los textos sueltos pueden ocultar información valiosa. Por ejemplo, Zapatos

Zoe LTD no muestra explícitamente que se trata de una sociedad de

responsabilidad limitada, ya que la sigla estándar en Colombia es LTDA.

▸ Pueden usarse diferentes formatos para datos individuales. Por ejemplo, una

Gobierno del Dato y Toma de Decisiones 8

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

fecha puede guardarse como una cadena de caracteres o como tres enteros.

▸ Pueden seleccionarse ciertas columnas para su carga. Por ejemplo, que las

columnas con valores vacíos no se carguen o se completen.

▸ Traducir códigos. Por ejemplo, cuando se almacena una H para hombre y una M

para mujer, pero luego se cambia a formato numérico: 1 para Hombre y 2 para

mujer. Otro ejemplo: V para vivo y M para muerto se cambia a 1 para vivo y 0 para
muerto.

▸ Codificar valores libres, como, por ejemplo: convertir hombre en 1, mujer en 2 o

niños en 3.

▸ Obtener nuevos valores calculados. Por ejemplo, el índice de masa corporal es

igual al peso dividido por la altura.

▸ Calcular totales de múltiples filas de datos. Por ejemplo, el total de una

población, el total de años, etc.

▸ Dividir una columna en varias. Por ejemplo, la columna de diagnóstico pasaría a

tres columnas: Diagnóstico_1, Diagnóstico_2, Diagnóstico_3.

▸ Datos erróneos. Pueden corregirse o eliminarse. Esto dependerá del valor que

aporten las variables y los datos al data warehouse.

La carga y actualización

Es la última etapa del proceso. Valida que los datos cargados en el DW sean

consistentes con las deﬁniciones y formatos. Los integra en los distintos modelos de

las distintas áreas de negocio que se han deﬁnido. Estos procesos suelen ser
complejos, por tanto, es necesario tener personal experto que ayude en el proceso.

Aquí es esencial comprobar que se ha desarrollado correctamente, ya que, caso

contrario, puede llevar a los usuarios a tomar decisiones erróneas.

Gobierno del Dato y Toma de Decisiones 9

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Esta etapa es el momento en el que se cargan los datos y se comprueba si los

elementos que se cargaron son equivalentes a la información que había en el

sistema transaccional, así como los valores que tienen los registros cargados

corresponden a los deﬁnidos en el data warehouse. Es importante comprobar que se

ha desarrollado correctamente, ya que, de lo contrario, puede llevar a tomas de

decisiones equivocadas. La carga en un almacén de datos es el último paso para

seguir.

La diferencia fundamental entre carga y actualización radica en el hecho de que la

carga se realiza cuando el DW está vacío, mientras que la actualización se hace

cuando ya existen datos en el mismo. En cualquier caso, tanto la carga como la

actualización se pueden llevar a cabo de dos maneras:

▸ Actualizar datos del almacén de datos completamente reescrito: esto significa

que los datos más antiguos se reemplazan. La actualización se usa normalmente en

combinación con la extracción estática para poblar inicialmente un depósito de
datos.

▸ Actualización de datos solo con los cambios aplicados a los datos fuente: la

actualización generalmente se lleva a cabo sin eliminar o modificar datos

preexistentes. Esta técnica se usa en combinación con la extracción incremental

para actualizar los almacenes de datos regularmente.

Gobierno del Dato y Toma de Decisiones 10

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

3.3. Almacén de datos (data warehouse)

A través del data warehouse —conocido también como almacén de datos en el

diccionario de datos— busca almacenar los datos de forma que facilite y maximice su

ﬂexibilidad, facilidad de acceso y administración. Surge como respuesta a las

necesidades de los usuarios que necesitan información consistente, integrada,

histórica y preparada para ser analizada y poder tomar decisiones. Al recuperar la

información de los distintos sistemas (transaccionales, departamentales o externos) y

almacenarla en un entorno diseñado por los usuarios y que integra la información, el

data warehouse permitirá analizar la información contextualmente y relacionarla

dentro de la organización.

Figura 2. Componentes del data warehouse. Fuente: Cano (2007).

Fuentes de datos

Se parte de las fuentes para sostener la información del data wareh6+6ouse. En

algunos casos, las fuentes de información externas son compradas a otras empresas

que gestionan información comercial, encuestas de satisfacción y estudios de

Gobierno del Dato y Toma de Decisiones 11

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

mercado, entre otros. Las fuentes de información externas son esenciales para

enriquecer la información que se tiene de los clientes. En otras ocasiones, es

favorable para la empresa incorporar información como, por ejemplo, la población, el

número de habitantes y los presupuestos públicos.

El autor Bill Inmon (1992) deﬁnió las características que debe cumplir un data

warehouse: debe estar orientado sobre un área, integrado e indexado en el tiempo;

es un conjunto no volátil de información que soporta la toma de decisiones.

▸ Orientado a un área: significa que cada parte del DW está construida para resolver

un problema de negocio, que ha sido definido por quienes toman las decisiones. Por
ejemplo, entender los hábitos de compra de los adolescentes, analizar la calidad de
los productos o analizar la productividad de una línea de producción. Para poder
analizar un problema de negocio se necesita información que pueda venir de
distintos sistemas: ventas, clientes y elementos de transporte, entre otros.

▸ Integrado: la información debe ser convertida en medidas comunes, códigos y

formatos comunes para que pueda ser útil. La integración permite a las
organizaciones implementar la estandarización de conceptos, por ejemplo: la
moneda, las fechas, etc.

▸ Indexado en el tiempo: significa que la información histórica se mantiene y se

almacena en determinadas unidades de tiempo, tales como horas, días, semanas,

meses, trimestres o años. Ello nos permitirá analizar, por ejemplo, la evolución de las
ventas, los inventarios en los períodos que se definan.

Gobierno del Dato y Toma de Decisiones 12

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ No volátil: esta información no es mantenida por los usuarios, como se realizaría en

los entornos transaccionales. La información se almacena para la toma de

decisiones. La actualización no se realiza de forma continua, sino periódicamente,
como lo defina la empresa.

El data warehouse debe cumplir con algunos objetivos. Ralph Kimball (1996) deﬁne
los siguientes:

▸ Acceder a la información de la empresa o del área funcional.

▸ Ser consistente.

▸ Separar la información para ser analizada a nivel individual o de manera conjunta.

▸ Utilizar herramientas de presentación de la información.

▸ Facilitar la publicación de la información.

▸ Tener alta calidad para soportar procesos de reutilización.

Los usuarios de negocio necesitan tomar decisiones basadas en la información del

DW, por lo que se deben asegurar las siguientes características según Barrer (1998):

▸ Alta disponibilidad.

▸ Rendimiento.

▸ Copias de seguridad y recuperación.

Gobierno del Dato y Toma de Decisiones 13

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Recuperación física en caliente.

Esquemas de un

data warehouse

Existen varias estructuras bajo las cuales se construye un DW, las más utilizadas son

los modelos estrella y copo de nieve, sus nombres se basan en el dibujo que forman

al crearse.

Esquema estrella

Este modelo es el más sencillo. Está formado por una tabla central de hechos y

varias dimensiones, incluida una dimensión de tiempo. Lo más representativo de la

arquitectura estrella es que solo existe una tabla de dimensiones para cada

dimensión. Esto quiere decir que la única tabla que tiene relación con otra es la de

hechos; toda la información relacionada con una dimensión debe estar en una sola

tabla.

Gobierno del Dato y Toma de Decisiones 14

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 3. Ejemplo de modelo estrella. Fuente: adaptado de Esquema en estrella, 2021.

En un data warehouse de ventas, los hechos son las ventas. En uno ﬁnanciero, los

elementos del balance. En uno de análisis de la bolsa, los hechos serían los
conceptos de apertura y precio de cierre. En la tabla de hechos, la clave está

conformada por las claves foráneas que apuntan a las dimensiones: ID_Producto,

ID_Almacen, ID_Cliente, ID_Fecha. Para un almacén, un día, un producto y un

cliente, solo puede existir un registro de unidades y precio.

Un modelo estrella es un modelo desnormalizado, ya que lo que se busca es una

mejora en el rendimiento de las consultas. Los join en las bases de datos

relacionales pueden ser muy pesados.

Gobierno del Dato y Toma de Decisiones 15

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Las ventajas y desventajas de este modelo son:

▸ Que es simple y rápido para un análisis multidimensional. Permite consultar datos

agregados y detalles.

▸ Que permite implementar la funcionalidad de los datos multidimensionales y, a la

vez, las ventajas de una base de datos relacional.

▸ En cuanto a rendimiento, que es la mejor opción, ya que permite indexar las

dimensiones de forma individualizada y sin que el rendimiento de la base de datos

se vea afectado.

Esquema copo de nieve

Es una variante del modelo anterior. En este modelo, la tabla de hechos ya no es

la única que se relaciona con las demás, sino que hay otras que se relacionan con

las dimensiones y que no tienen relación directa con la tabla de hechos. El modelo

fue concebido para facilitar el mantenimiento de las dimensiones; sin embargo,

esto permite que se vinculen más tablas a las secuencias SQL. Este modelo es

complejo de mantener, ya que permite la vinculación de muchas tablas.

Gobierno del Dato y Toma de Decisiones 16

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 4. Ejemplo de modelo copo de nieve. Fuente: adaptado de Esquema en copo de nieve, 2020.

Las ventajas y desventajas de este modelo son:

▸ Que, al estar normalizado, se evita la redundancia de datos.

▸ Que, como el tiempo de respuesta es muy elevado, es necesaria una respuesta

rápida y es crítico para el sistema, puede no ser la mejor opción.

Normalmente, los data warehouse se representan como una gran base de datos

donde, en algunas ocasiones, pueden estar distribuidas distintas bases de datos, es

decir, pueden centralizar toda la información que posee la empresa en un solo sitio,

lo que permite manejar la información fácilmente. El trabajo de construir un DW

colectivo puede generar inﬂexibilidades, o ser costoso y requerir plazos de tiempo

elevados.

Esquema galaxia

Gobierno del Dato y Toma de Decisiones 17

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Este esquema contiene varias tablas de hechos que comparten dimensiones. Es

muy común encontrar este tipo de esquema, incluso es recomendable compartir

dimensiones. El esquema se ve como una colección de estrellas, y por eso su

nombre.

Por ejemplo, pueden existir dos tablas de hechos (inventario y ventas) que podrían

compartir las dimensiones de producto y fecha.

Figura 5. Almacenes de datos antes (A) y después de aplicar data warehouse (B). Fuente: Abella et al.,

2000.

Arquitecturas

Para la realización del data warehouse, se adoptan dos clasiﬁcaciones diferentes

para su arquitectura:

▸ Primera clasificación: orientada a la estructura y depende del número de capas

utilizadas por la arquitectura.

▸ Segunda clasificación: depende de cómo se empleen las diferentes capas para

crear vistas orientadas a los departamentos.

Arquitectura de una sola capa

Gobierno del Dato y Toma de Decisiones 18

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

En la práctica, no se utiliza con frecuencia. Su objetivo es minimizar la cantidad de

datos almacenados. Para alcanzar este objetivo, se eliminan las redundancias de

datos. Esto signiﬁca que un almacén de datos se implementa como una vista
multidimensional de datos operacionales creados por un middleware especíﬁco o

una capa de procesamiento intermedio (Devlin, 1997).

La debilidad de esta arquitectura radica en que no cumple con los requisitos de

separación entre procesamiento analítico y transaccional. Las consultas de análisis

se envían a los datos operativos después de que el middleware los interpreta. De

esta manera, las consultas afectan a las cargas de trabajo transaccionales regulares.

Además, aunque esta arquitectura puede cumplir con los requisitos de integración y

exactitud de los datos, no puede registrar más que las fuentes.

Por estas razones, un enfoque de este tipo para los almacenes de datos puede ser

exitoso solo si las necesidades de análisis son particularmente restringidas y el

volumen de datos a analizar es enorme (Rizzi y Golfarelli, 2009).

Arquitectura de dos capas

Aunque normalmente se denomina arquitectura de dos capas, por destacar la

separación entre las fuentes físicamente disponibles y los almacenes de datos, en

realidad consta de cuatro etapas de ﬂujo de datos posteriores (Hüsemann et al.,

2000):

▸ Capa de origen: sistema de almacén de datos que utiliza fuentes heterogéneas.

Originalmente, los datos se guardan en bases de datos relacionales corporativas o

pueden provenir de sistemas de información fuera de los muros corporativos. La

prioridad en este tipo de sistema es la actualización y se mantienen pocos datos

históricos.

Gobierno del Dato y Toma de Decisiones 19

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Capa de almacenamiento de datos: los datos almacenados en las diferentes

fuentes deben extraerse, limpiarse para eliminar inconsistencias y rellenar espacios,

e integrarse para convertirlas en fuentes heterogéneas en un esquema común,

proceso ETL. Pueden combinar esquemas heterogéneos, extraer, transformar,
limpiar, validar, filtrar, quitar duplicados, archivar y cargar los datos fuente para ser
utilizados en el data warehouse (Jarke et al., 2013).

▸ Capa de depósito de datos: la información se almacena en un solo depósito

lógicamente centralizado. Puede accederse directamente al almacén de datos, pero

también puede utilizarse como fuente para crear nuevos productos de datos, que
replican parcialmente los contenidos del almacén de datos y están diseñados para

departamentos empresariales específicos. Los repositorios de metadatos almacenan

información sobre fuentes, procedimientos de acceso, usuarios, esquemas de data
mart (estos y los metadatos se amplían más adelante). Un DW está constituido por la
integración de varios data marts.

▸ Capa de análisis: se accede de manera eficiente y flexible a los datos integrados

para emitir informes, analizar la información y representar escenarios hipotéticos de

negocios (adecuados para cada empresa). Tecnológicamente hablando, aquí se
utilizan diferentes herramientas de visualización de datos, optimizadores de
consultas para el apoyo en la toma de decisiones.

Impacto del

data warehouse

(Mendez

et al.,

Gobierno del Dato y Toma de Decisiones 20

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

2003)

El éxito del data warehouse está enfocado en mejorar los procesos empresariales,

operacionales y de toma de decisiones. Para que esto funcione deben tenerse en

cuenta los impactos producidos en los diferentes ámbitos de la empresa.

Impacto en las personas

La construcción del data warehouse requiere de la participación de quienes lo

utilizarán. Depende de la realidad de la empresa y de las condiciones que existan en

el momento de la creación, las cuales determinarán cuál será su contenido.

Como se ha visto, el data warehouse provee los datos que posibilitarán a los

usuarios acceder a la propia información en el momento en que la necesiten. Para

que se realice esta entrega, hay que tener en cuenta:

▸ Que los usuarios deberán adquirir nuevas destrezas; por lo tanto, van a necesitar

programas de capacitación adecuados.

▸ Que los largos tiempos de análisis y programación se reducen para usuarios

pertenecientes a las áreas de tecnología, y se reduce también el tiempo de espera

para los usuarios de negocio.

▸ Que, al estar la información lista para ser utilizada, probablemente aumenten las

expectativas. Se reducirá considerablemente la gran cantidad de reportes en papel.

Impactos en los procesos empresariales y de toma de decisiones

▸ Mejora del proceso para la toma de decisiones, ya que facilita la disponibilidad de la

información. Las decisiones son tomadas más rápidamente y la gente entiende más
del porqué de las decisiones.

▸ Los procesos empresariales se optimizan, se elimina el tiempo de espera de la

información al encontrarse almacenada en un solo sitio.

Gobierno del Dato y Toma de Decisiones 21

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

▸ Una vez desarrollado el data warehouse, se reducen los costos de los procesos y
en múltiples ocasiones se esclarecen sus conexiones y dependencias, lo que
aumenta la eficiencia en dichos procesos.

▸ El data warehouse permite que los datos de los sistemas sean utilizados y
examinados al estar organizados para tener un significado para la empresa.

▸ Aumenta la confianza en las decisiones tomadas con base en la información del

DW. Tanto los responsables de la toma de decisiones como los afectados conocen
la información, que tendrá que ser de buena calidad, clara, precisa y concisa.

▸ La información que se comparte lleva a un lenguaje común, conocimiento común y

mejora de la comunicación en la empresa.

Data mart

E l data warehouse es una gran estructura. En muchas ocasiones, para facilitar el

manejo de los datos, es necesario utilizar estructuras de datos más pequeñas

llamadas data mart (ver Figura 6). El propósito es ayudar a que un departamento

especíﬁco dentro de la empresa pueda tomar mejores decisiones. Los datos

existentes en este contexto pueden ser resumidos, agrupados y explotados de

múltiples formas para diversos grupos de usuarios.

Gobierno del Dato y Toma de Decisiones 22

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Figura 6. Ejemplo de data mart.

Los data mart están dirigidos a un conjunto de usuarios dentro de la empresa, que

puede estar formado por los miembros de un departamento, por los usuarios de un

determinado nivel administrativo o por un grupo de trabajo multidisciplinar con

objetivos comunes.

Los data mart están compuestos por partes del DW primario, que en algunos casos

pueden ser:

▸ Dependientes: utilizan los datos y metadatos del data warehouse directamente en

lugar de obtenerlos de los sistemas de producción.

▸ Independientes: los datos son tomados de cada área de la empresa, siempre

manteniendo los datos alineados con el DW, si este existe.

Gobierno del Dato y Toma de Decisiones 23

Tema 3. Ideas clave
© Universidad Internacional de La Rioja (UNIR)
Ideas clave

Aunque los data mart no son estrictamente necesarios, son muy útiles para los

sistemas de almacenamiento de datos en medianas y grandes empresas debido a

que:

▸ Se usan como bloques de construcción mientras se desarrollan depósitos de datos

de forma incremental.

▸ Marcan la información requerida por un grupo específico de usuarios para resolver

consultas más rápidas por el menor volumen de datos.

▸ Pueden ofrecer un mejor rendimiento porque son más pequeños que los data

warehouse primarios. Por lo tanto, son más fáciles de implementar.

▸ Al ser pequeños los conjuntos de datos consumen menos recursos.

Los metadatos

Un componente esencial de un data warehouse son los metadatos. Es el repositorio

central de información que abarca todos los niveles. Da el signiﬁcado de cada uno de

los componentes, variables y atributos que residen en el DW o data mart. La

información que contienen los metadatos es útil para los departamentos y los propios

usuarios. Incluye localizaciones, estructura, deﬁniciones de negocio, descripciones

minuciosas de los tipos de datos, signiﬁcado, formatos, la cantidad y otras

características, como los valores máximos y mínimos de los datos. En otras palabras,

mapean los datos.

La información más importante va dirigida hacia:

▸ El usuario: información sobre el significado de los datos utilizados y su localización

en el data warehouse.

Gobierno del Dato y Toma de Decisiones 24

▸ El equipo responsable de los procesos de transformación de los datos:

información sobre la ubicación del dato en los sistemas de producción y los procesos
de transformación.

▸ Equipo responsable de los procesos de creación de nuevos datos a partir de

los datos detallados.

A continuación, accede al vídeo Metadatos:

Accede al vídeo:
[Link]
41de-9e0b-ad66008e96d7

Gobierno del Dato y Toma de Decisiones 25

3.4. Lago de datos (data lake)

Puede deﬁnirse como un almacén de datos o un repositorio de grandes

cantidades de datos útiles para realizar análisis. Los datos se almacenan en una

arquitectura plana en lugar de hacerlo en una estructura jerárquica, como se hace

con los almacenes de datos. Los datos almacenados pueden ser de cualquier tipo:

▸ Datos estructurados (filas y columnas)

▸ Semiestructurados (CSV, JSON, XML).

▸ No estructurados (PDF, documentos, fotos, vídeos, correos).

Es necesario crear metadatos para poder tener información adicional de cada dato

almacenado. Si un lago de datos no proporciona valor para los usuarios o es

inaccesible, se denomina pantano de datos.

Es necesario implementar un esquema de lectura para que los cientíﬁcos y analistas

de datos puedan realizar análisis predictivos, descubrir conocimiento y generar

herramientas de visualización, entre otros procesos posibles.

La transformación de datos se realiza en la etapa en la que se leen los

datos.

Cuando se crea un data lake, el proceso ETL (extracción, transformación y carga)

cambia a ELT (extracción, carga y transformación). Los datos se almacenan sin

procesar (Nair, 2018).

Gobierno del Dato y Toma de Decisiones 26

En la siguiente tabla se encuentran las diferencias entre ETL y ELT.

Tabla 1. Diferencias entre ETL y ELT. Fuente: adaptado de Ladrero, 2020.

Gobierno del Dato y Toma de Decisiones 27

3.5. Referencias bibliográficas

Barrer, R. (1998). Managing a datawarehouse.

Cano, J. L. (2007). Business intelligence: competir con información. ESADE Business

School.

[Link]

Devlin, B. (1997). Data warehouse: From architecture to implementation. Addison-

Wesley.

Eckerson, W., y White. C. (2003). Evaluating ETL and Data Integration Platforms.

TDWI Report Series.

Esquema en copo de nieve. (7 de junio de 2020). En Wikipedia.

[Link]

Esquema en estrella. (2 de mayo de 2021). En Wikipedia.

[Link]

Hüsemann, B., Lechtenbörger, J., y Vossen, G. (2000). Conceptual Data Warehouse

Design. Proc. of the International Workshop on Design and Management of Data

Warehouses.

Inmon, W. H. (1992). Building the data warehouse. Wiley.

[Link]

Jarke, M., Jeusfeld, M. A., Quix, C. J., Vassiliadis, P., y Vassiliou, Y. (2013). Data

warehouse architecture and quality: impact and open challenges. En J. Bubenko, J.

Krogstie, O. Pastor, B. Pernici, C. Rolland y A. Sølvberg (eds.), Seminal contributions

Gobierno del Dato y Toma de Decisiones 28

to information systems engineering (pp. 183-189). Springer.

Kimball, R. (1996). The data warehouse toolkit. Wiley.

Ladrero, I. (12 de noviembre de 2020). ELT o ETL, ¿qué es mejor? [Página web].

Baoss. [Link]

Mendez, A., Mártire, A., Britos, P. y García-Martínez, R. (2003). Fundamentos de

data warehouse. Reportes técnicos en ingeniería del software, 5(1), 19-26.

Nair, S., y Poornima, S. (2018). Data lake: AWS & AZURE data lake, big data

solutions & security.

Ong, T. C., Kahn, M. G., Kwan, B. M., Yamashita, T., Brandt, E., Hosokawa, P.,

Uhrich, C., y Schilling, L. M. (2017). Dynamic-ETL: a hybrid approach for health data
extraction, transformation and loading. BMC Medical Informatics and Decision

Making, 17, 134.

Rizzi, S., y Golfarelli, M., (2009). Data warehouse design: modern principles and

methodologies. McGraw-Hill Education.

Theodoratos, D., Ligoudistianos, S., y Sellis, T. (2001). View selection for designing

the global data warehouse. Data & Knowledge Engineering, 39(3), 219-240.

Villanueva, J. (2011). Marco de trabajo basado en ontologías para el proceso ETL

(Trabajo Fin de Máster). Centro de Investigación y de Estudios Avanzados del

Instituto Politécnico Nacional, México.

Gobierno del Dato y Toma de Decisiones 29

Azure data lake storage tutorial

Adam Marczak - Azure for Everyone. (12 de diciembre de 2019). Azure Data Lake

Storage (Gen 2) Tutorial | Best storage solution for big data analytics in Azure

[Vídeo]. Youtube. [Link]

En este vídeo podrás ver una introducción a lo que sería construir un data lake en

Azure, cómo trabaja y cómo aprovechar las ventajas de este tipo de almacenamiento

en la nube.

Gobierno del Dato y Toma de Decisiones 30

Desarrollo de un cubo OLAP con Schema

Workbench de Pentaho

Auribox Training. (2017, junio 17). Desarrollando un CUBO OLAP con Schema

Workbench de Pentaho | Tutorial [Vídeo]. Youtube.

[Link]

En este vídeo podrás observar paso a paso la creación de un cubo con la

herramienta Pentaho, de tipo open source, que integra todas las etapas de una

estrategia BI.

Gobierno del Dato y Toma de Decisiones 31

Creando una ETL con las herramientas de Pentaho

Joseph Reyes. (6 de mayo de 2016). Creando una ETL con las herramientas de

Pentaho 6 [Vídeo]. Youtube.

[Link]

Vídeo tutorial demostrativo para crear una ETL a partir de una base de datos

transaccional, tomando como modelo un negocio de tipo tienda.

Gobierno del Dato y Toma de Decisiones 32

ETL vs. ELT

Astera Software. (28 de noviembre de 2019). [WEBINAR]: ETL vs. ELT: A Data

Integration Showdown [Vídeo]. Youtube.

[Link]

En este webinar hablan sobre las capacidades de cada uno de estos enfoques, cómo

pueden usarse individualmente y combinarlos para un mejor rendimiento.

Gobierno del Dato y Toma de Decisiones 33

1. ¿Cuáles pueden ser dos posibles fuentes de datos para un data warehouse?

A. Bases de datos relacionales y archivos de texto plano.

B. Archivos XML y codificación de archivos HTML.

C. Archivos PDF y documentos en papel.

D. Ninguna de las anteriores.

2. ¿Cuál es la función del data warehouse y del data lake?

A. Aumentar el trabajo de los usuarios.

B. Ayudar en la toma de decisiones.

C. Centralizar los datos para facilitar el manejo.

D. Ninguna de las anteriores.

3. El autor Bill Inmon deﬁnió las características que debe cumplir un data

warehouse. ¿Cuáles son?

A. Orientado a un área e integrado.

B. Portátil y fácil de manejar.

C. Indexado en el tiempo y no volátil.

D. A y C son correctas.

4. ¿Cuáles pueden ser posibles fuentes de datos para un data lake?

A. Bases de datos relacionales y archivos de texto plano.

B. Archivos XML y codificación de archivos HTML.

C. Archivos PDF y fotos.

D. Todos las anteriores.

Gobierno del Dato y Toma de Decisiones 34

5. Son arquitecturas para implementar un data warehouse:

A. Arquitectura mecánica.

B. Arquitectura de una sola capa.

C. Arquitectura de dos capas.

D. B y C son correctas.

Arquitecturas: una sola capa y dos capas.

6. Los data mart:

A. Son los metadatos del data warehouse.

B. Son estructuras de datos especíﬁcas para un departamento, el conjunto de

data marts compone un data warehouse.

C. Permiten acceder directamente al data warehouse.

D. Son una fuente de datos.

7. ¿Cuáles son etapas del proceso ETL?

A. Extracción.

B. Transformación.

C. Subida de datos brutos.

D. A y B son correctas.

8. Es falso si hablamos de ELT:

A. Los datos se cargan y se transforman en un servidor intermedio antes de

subir al DW.

B. El tiempo de carga es muy rápido.

C. Bajo nivel de mantenimiento.

D. Es nuevo y complejo de implementar.

Los datos se cargan una sola vez a la estructura ﬁnal del data lake, no

necesitan transformación.

Gobierno del Dato y Toma de Decisiones 35

9. Es falso si hablamos de ETL:

A. Los datos se transforman en un servidor intermedio antes de subir al DW.

B. El tiempo de carga, sobre todo la primera vez, es muy rápido.

C. Altos niveles de mantenimiento.

D. Las estructuras pueden llegar a ser complejas.

10. Es cierto si hablamos de metadatos:

A. Son un repositorio central de información.

B. Da signiﬁcado a cada componente, variable y atributo que reside en el DW.

C. Contiene información sobre la estructura del data lake.

D. A y B son verdaderos.

Gobierno del Dato y Toma de Decisiones 36

También podría gustarte

Esl ES
Aún no hay calificaciones
Esl ES
34 páginas
Tema 3. Data Warehouse y Data Lak
Aún no hay calificaciones
Tema 3. Data Warehouse y Data Lak
36 páginas
ES U2 PARTE2 Francisco Perez
Aún no hay calificaciones
ES U2 PARTE2 Francisco Perez
10 páginas
Optimización de Datos en Hierros S.A.
Aún no hay calificaciones
Optimización de Datos en Hierros S.A.
17 páginas
El Proceso ETL en El Análisis de Datos
Aún no hay calificaciones
El Proceso ETL en El Análisis de Datos
4 páginas
TBD
Aún no hay calificaciones
TBD
49 páginas
Etl. M1 PDF
Aún no hay calificaciones
Etl. M1 PDF
32 páginas
Arquitectura de Soluciones BI
Aún no hay calificaciones
Arquitectura de Soluciones BI
21 páginas
Proceso ETL: Extracción y Transformación
Aún no hay calificaciones
Proceso ETL: Extracción y Transformación
38 páginas
Almacén de Datos y ETL para Decisiones
Aún no hay calificaciones
Almacén de Datos y ETL para Decisiones
23 páginas
Creación de Soluciones BI y ETL
Aún no hay calificaciones
Creación de Soluciones BI y ETL
62 páginas
Proceso ETL en Inteligencia de Negocio
Aún no hay calificaciones
Proceso ETL en Inteligencia de Negocio
85 páginas
Proceso ETL en Inteligencia de Negocios
Aún no hay calificaciones
Proceso ETL en Inteligencia de Negocios
10 páginas
Almacén de Datos y ETL en Educación
Aún no hay calificaciones
Almacén de Datos y ETL en Educación
13 páginas
El Proceso de Etl (Extract, Transform and Load)
Aún no hay calificaciones
El Proceso de Etl (Extract, Transform and Load)
91 páginas
Proceso ETL en Inteligencia de Negocios
Aún no hay calificaciones
Proceso ETL en Inteligencia de Negocios
10 páginas
EBOOK Procesos ETL
Aún no hay calificaciones
EBOOK Procesos ETL
22 páginas
Procesos ETL y Data Warehousing en BI
Aún no hay calificaciones
Procesos ETL y Data Warehousing en BI
11 páginas
Procesos ETL
100% (1)
Procesos ETL
21 páginas
Proceso ETL en Inteligencia de Negocios
Aún no hay calificaciones
Proceso ETL en Inteligencia de Negocios
34 páginas
Limpieza de Datos en Proceso ETL
Aún no hay calificaciones
Limpieza de Datos en Proceso ETL
22 páginas
Proceso de ETL
Aún no hay calificaciones
Proceso de ETL
2 páginas
Proceso ETL en Inteligencia de Negocios
Aún no hay calificaciones
Proceso ETL en Inteligencia de Negocios
10 páginas
Limpieza de Datos en el Proceso ETL
Aún no hay calificaciones
Limpieza de Datos en el Proceso ETL
23 páginas
Herramientas Del Big Data y Gobierno Del Dato - Proyecto de Aplicación
100% (2)
Herramientas Del Big Data y Gobierno Del Dato - Proyecto de Aplicación
5 páginas
Tema 3 - Especialización
Aún no hay calificaciones
Tema 3 - Especialización
16 páginas
Guía de Integración de Datos
Aún no hay calificaciones
Guía de Integración de Datos
5 páginas
Dmbi Practical
Aún no hay calificaciones
Dmbi Practical
65 páginas
Procesos ETL: Extracción, Transformación y Carga
Aún no hay calificaciones
Procesos ETL: Extracción, Transformación y Carga
16 páginas
Guía Completa de Herramientas ETL
Aún no hay calificaciones
Guía Completa de Herramientas ETL
12 páginas
Tipos y Conjuntos de Datos en Minería de Datos
Aún no hay calificaciones
Tipos y Conjuntos de Datos en Minería de Datos
6 páginas
Base de Datos
Aún no hay calificaciones
Base de Datos
2 páginas
Componentes de BI
Aún no hay calificaciones
Componentes de BI
35 páginas
Herramientas y Procesos de ETL
Aún no hay calificaciones
Herramientas y Procesos de ETL
6 páginas
Introducción a Procesos ETL y SSIS
Aún no hay calificaciones
Introducción a Procesos ETL y SSIS
10 páginas
Proceso ETL: Guía Completa y Herramientas
0% (1)
Proceso ETL: Guía Completa y Herramientas
4 páginas
Actividad Teorica ETL
Aún no hay calificaciones
Actividad Teorica ETL
2 páginas
Procesos ETL: Clave en Integración de Datos
Aún no hay calificaciones
Procesos ETL: Clave en Integración de Datos
3 páginas
Procesos ETL: Guía Completa
Aún no hay calificaciones
Procesos ETL: Guía Completa
5 páginas
Componentes Clave de la Inteligencia de Negocio
Aún no hay calificaciones
Componentes Clave de la Inteligencia de Negocio
21 páginas
Procesos ETL en Business Intelligence
Aún no hay calificaciones
Procesos ETL en Business Intelligence
26 páginas
Ejemplo de Proceso ETL en Power BI
80% (5)
Ejemplo de Proceso ETL en Power BI
9 páginas
ETL Extracción Transformación y Carga de Datos
Aún no hay calificaciones
ETL Extracción Transformación y Carga de Datos
6 páginas
Proceso ETL: Extracción, Transformación y Carga
Aún no hay calificaciones
Proceso ETL: Extracción, Transformación y Carga
25 páginas
Introducción al Data Warehouse y ETL
Aún no hay calificaciones
Introducción al Data Warehouse y ETL
4 páginas
Poblamiento y ETL en Data Warehouse
100% (1)
Poblamiento y ETL en Data Warehouse
25 páginas
Tutorial ETL Dataware House
Aún no hay calificaciones
Tutorial ETL Dataware House
75 páginas
Proceso ETL para Hierros S.R.L.
Aún no hay calificaciones
Proceso ETL para Hierros S.R.L.
19 páginas
ETL y Data Warehousing
Aún no hay calificaciones
ETL y Data Warehousing
17 páginas
Implementación de Data Warehouse ETL
Aún no hay calificaciones
Implementación de Data Warehouse ETL
17 páginas
2.2 Procesos ETL PDF
Aún no hay calificaciones
2.2 Procesos ETL PDF
16 páginas
Proceso ETL: Extracción, Transformación y Carga
Aún no hay calificaciones
Proceso ETL: Extracción, Transformación y Carga
3 páginas
Data Warehousing y Procesos ETL
Aún no hay calificaciones
Data Warehousing y Procesos ETL
32 páginas
Proceso ETL
Aún no hay calificaciones
Proceso ETL
8 páginas
Procesos ETL: Extracción
Aún no hay calificaciones
Procesos ETL: Extracción
3 páginas
Act 5
Aún no hay calificaciones
Act 5
6 páginas
Gov 2
Aún no hay calificaciones
Gov 2
48 páginas
Gov 1
Aún no hay calificaciones
Gov 1
44 páginas
Fundamentos de Bases de Datos Relacionales
Aún no hay calificaciones
Fundamentos de Bases de Datos Relacionales
45 páginas
Plan Estratégico ICETEX 2023-2026
Aún no hay calificaciones
Plan Estratégico ICETEX 2023-2026
37 páginas
Modelo Entidad-Relacion
Aún no hay calificaciones
Modelo Entidad-Relacion
5 páginas
DOC2022913636
Aún no hay calificaciones
DOC2022913636
45 páginas
Acuerdo - Formato Plan Institucional Proteccion
Aún no hay calificaciones
Acuerdo - Formato Plan Institucional Proteccion
2 páginas
Prueba Técnica de Business Intelligence
Aún no hay calificaciones
Prueba Técnica de Business Intelligence
4 páginas
Actividad 1 20242
Aún no hay calificaciones
Actividad 1 20242
2 páginas
Introducción a Bases de Datos y SGBD
Aún no hay calificaciones
Introducción a Bases de Datos y SGBD
22 páginas
p1BD - Clave B
Aún no hay calificaciones
p1BD - Clave B
2 páginas
Historia Económica de México 1933-1982
Aún no hay calificaciones
Historia Económica de México 1933-1982
813 páginas
Gamificacion en La Enseñanza de Las Matematicas PDF
Aún no hay calificaciones
Gamificacion en La Enseñanza de Las Matematicas PDF
14 páginas
Metodología de Investigación en Enfermería
100% (1)
Metodología de Investigación en Enfermería
41 páginas
Informes Eficientes con TQuickReport
Aún no hay calificaciones
Informes Eficientes con TQuickReport
11 páginas
Proyecto Integrador Fase - 2
Aún no hay calificaciones
Proyecto Integrador Fase - 2
21 páginas
Guía para Reconstrucción de Historiales Vehiculares
Aún no hay calificaciones
Guía para Reconstrucción de Historiales Vehiculares
3 páginas
Plan de Trabajo CEBA Independencia 2020
Aún no hay calificaciones
Plan de Trabajo CEBA Independencia 2020
42 páginas
Trucos Asp
Aún no hay calificaciones
Trucos Asp
25 páginas
Sistema OTAN de Catalogación Logística
Aún no hay calificaciones
Sistema OTAN de Catalogación Logística
21 páginas
Ensayo Mysql
Aún no hay calificaciones
Ensayo Mysql
8 páginas
Ejercicio SQL
Aún no hay calificaciones
Ejercicio SQL
2 páginas
Actividades 2011 de la CNUFADN
Aún no hay calificaciones
Actividades 2011 de la CNUFADN
29 páginas
Respuestas - Checklist Auditoria de Base de Datos
Aún no hay calificaciones
Respuestas - Checklist Auditoria de Base de Datos
8 páginas
Planificacion
Aún no hay calificaciones
Planificacion
4 páginas
Cap1 QUARK PDF
0% (1)
Cap1 QUARK PDF
31 páginas
Ventajas y Desventajas de mariaDB
Aún no hay calificaciones
Ventajas y Desventajas de mariaDB
4 páginas
XPath: Gestión y Recuperación XML
Aún no hay calificaciones
XPath: Gestión y Recuperación XML
16 páginas
Gestión de PQRS con Laravel y PHP
Aún no hay calificaciones
Gestión de PQRS con Laravel y PHP
16 páginas
Ejercicios 3 y 13
Aún no hay calificaciones
Ejercicios 3 y 13
14 páginas
CRUD Capas
Aún no hay calificaciones
CRUD Capas
13 páginas
Introducción a MongoDB en Español
Aún no hay calificaciones
Introducción a MongoDB en Español
32 páginas
Inteligencia de Negocios y Toma de Decisiones
Aún no hay calificaciones
Inteligencia de Negocios y Toma de Decisiones
94 páginas
Uso de FileMaker Pro Advanced 8
Aún no hay calificaciones
Uso de FileMaker Pro Advanced 8
20 páginas
Caso de Uso Business Intelligence Solution For An SME PDF
Aún no hay calificaciones
Caso de Uso Business Intelligence Solution For An SME PDF
8 páginas
Guía de Estudio: Informática Aplicada II
0% (1)
Guía de Estudio: Informática Aplicada II
17 páginas
Normalizacion de Bases de Datos
Aún no hay calificaciones
Normalizacion de Bases de Datos
4 páginas
DIVAGIS
Aún no hay calificaciones
DIVAGIS
1 página
Fragmentación Vertical en Bases de Datos
Aún no hay calificaciones
Fragmentación Vertical en Bases de Datos
2 páginas