0% encontró este documento útil (0 votos)
81 vistas16 páginas

Qué es un Data Lake en Big Data

El documento describe el concepto de Big Data, su importancia para las organizaciones y los desafíos asociados. Big Data se refiere a grandes volúmenes de datos estructurados y no estructurados que pueden analizarse para obtener información valiosa y tomar mejores decisiones de negocios. El análisis de Big Data es importante porque permite identificar nuevas oportunidades y mejorar la toma de decisiones, los productos y la satisfacción de los clientes. Sin embargo, la calidad de los datos plantea desafíos debido al gran volumen
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
81 vistas16 páginas

Qué es un Data Lake en Big Data

El documento describe el concepto de Big Data, su importancia para las organizaciones y los desafíos asociados. Big Data se refiere a grandes volúmenes de datos estructurados y no estructurados que pueden analizarse para obtener información valiosa y tomar mejores decisiones de negocios. El análisis de Big Data es importante porque permite identificar nuevas oportunidades y mejorar la toma de decisiones, los productos y la satisfacción de los clientes. Sin embargo, la calidad de los datos plantea desafíos debido al gran volumen
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Big Data

Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad

Big Data es un término que describe el gran volumen de datos, tanto estructurados como no
estructurados, que inundan los negocios cada día. Pero no es la cantidad de datos lo que es
importante. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos.
Big Data se puede analizar para obtener ideas que conduzcan a mejores decisiones y
movimientos de negocios estratégicos.

Índice de contenidos

1. ¿Qué es Big Data?

2. ¿Por qué el Big Data es tan importante?

3. Desafíos de la calidad de datos en Big Data

4. Cómo construir un plan de Data Governance en Big data

1. ¿Qué es Big Data?


Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante
tecnologías y herramientas convencionales, tales como bases de datos relacionales y
estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que
sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se considera


Big Data no está firmemente definido y sigue cambiando con el tiempo, la mayoría de los
analistas y profesionales actualmente se refieren a conjuntos de datos que van desde 30-50
Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de


gran parte de los datos generados por las tecnologías modernas, como los web logs, la
identificación por radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehículos, las búsquedas en Internet, las redes sociales como Facebook,
computadoras portátiles, teléfonos inteligentes y otros teléfonos móviles, dispositivos GPS y
registros de centros de llamadas.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con
datos estructurados (normalmente de una base de datos relacional) de una aplicación
comercial más convencional, como un ERP (Enterprise Resource Planning o sistemas de
planificación de recursos empresariales) o un CRM (Customer Relationship Management o
Administración basada en la relación con los clientes).
ERP son los sistemas de información gerenciales que integran y manejan muchos de
los negocios asociados con las operaciones de producción y de los aspectos de
distribución de una compañía en la producción de bienes o servicios.

La planificación de recursos empresariales es un término derivado de la planificación


de recursos de manufactura (MRPII) y seguido de la planificación de requerimientos de
material (MRP); sin embargo los ERP han evolucionado hacia modelos de suscripción
por el uso del servicio (SaaS, cloud computing).

CRM es un modelo de gestión de toda la organización, basada en la satisfacción del


cliente (u orientación al mercado según otros autores). El concepto más cercano es
marketing relacional y tiene mucha relación con otros conceptos como: clienting,
marketing 1x1, marketing directo de base de datos, etc

2. ¿Por qué el Big Data es tan importante?


Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona
respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. En otras
palabras, proporciona un punto de referencia. Con una cantidad tan grande de información,
los datos pueden ser moldeados o probados de cualquier manera que la empresa considere
adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una
forma más comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los


datos permiten que las empresas se muevan mucho más rápidamente, sin problemas y de
manera eficiente. También les permite eliminar las áreas problemáticas antes de que los
problemas acaben con sus beneficios o su reputación.

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más
inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las
empresas con más éxito con Big Data consiguen valor de las siguientes formas:

o Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado
en la nube, aportan importantes ventajas en términos de costes cuando se trata de
almacenar grandes cantidades de datos, además de identificar maneras más eficientes de
hacer negocios.
o Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en
memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas
pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han
aprendido.
o Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y
la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con
la analítica de Big Data, más empresas están creando nuevos productos para satisfacer las
necesidades de los clientes.

Por ejemplo:
o Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la
satisfacción del cliente puede ser difícil de medir, especialmente en el momento
oportuno. Resorts y casinos, por ejemplo, sólo tienen una pequeña oportunidad de dar la
vuelta a una mala experiencia de cliente. El análisis de Big data ofrece a estas empresas la
capacidad de recopilar datos de los clientes, aplicar análisis e identificar inmediatamente
posibles problemas antes de que sea demasiado tarde.
o Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria.
Los registros de pacientes, planes de salud, información de seguros y otros tipos de
información pueden ser difíciles de manejar, pero están llenos de información clave una
vez que se aplican las analíticas. Es por eso que la tecnología de análisis de datos es tan
importante para el cuidado de la salud. Al analizar grandes cantidades de información -
tanto estructurada como no estructurada - rápidamente, se pueden proporcionar
diagnósticos u opciones de tratamiento casi de inmediato.
o Administración: La administración se encuentra ante un gran desafío: mantener la calidad
y la productividad con unos presupuestos ajustados. Esto es particularmente
problemático con lo relacionado con la justicia. La tecnología agiliza las operaciones
mientras que da a la administración una visión más holística de la actividad.
o Retail: El servicio al cliente ha evolucionado en los últimos años, ya que los compradores
más inteligentes esperan que los minoristas comprendan exactamente lo que necesitan,
cuando lo necesitan. El Big Data ayuda a los minoristas a satisfacer esas demandas.
Armados con cantidades interminables de datos de programas de fidelización de clientes,
hábitos de compra y otras fuentes, los minoristas no sólo tienen una comprensión
profunda de sus clientes, sino que también pueden predecir tendencias, recomendar
nuevos productos y aumentar la rentabilidad.
o Empresas manufactureras: Estas despliegan sensores en sus productos para recibir datos
de telemetría. A veces esto se utiliza para ofrecer servicios de comunicaciones, seguridad
y navegación. Ésta telemetría también revela patrones de uso, tasas de fracaso y otras
oportunidades de mejora de productos que pueden reducir los costos de desarrollo y
montaje.
o Publicidad: La proliferación de teléfonos inteligentes y otros dispositivos GPS ofrece a los
anunciantes la oportunidad de dirigirse a los consumidores cuando están cerca de una
tienda, una cafetería o un restaurante. Esto abre nuevos ingresos para los proveedores de
servicios y ofrece a muchas empresas la oportunidad de conseguir nuevos prospectos.
o Otros ejemplos del uso efectivo de Big Data existen en las siguientes áreas:
o Uso de registros de logs de TI para mejorar la resolución de problemas de TI, así
como la detección de infracciones de seguridad, velocidad, eficacia y prevención de
sucesos futuros.
o Uso de la voluminosa información histórica de un Call Center de forma rápida, con
el fin de mejorar la interacción con el cliente y aumentar su satisfacción.
o Uso de contenido de medios sociales para mejorar y comprender más rápidamente
el sentimiento del cliente y mejorar los productos, los servicios y la interacción con
el cliente.
o Detección y prevención de fraudes en cualquier industria que procese
transacciones financieras online, tales como compras, actividades bancarias,
inversiones, seguros y atención médica.
o Uso de información de transacciones de mercados financieros para evaluar más
rápidamente el riesgo y tomar medidas correctivas.
3. Desafíos de la calidad de datos en Big Data
Las especiales características del Big Data hacen que su calidad de datos se enfrente a
múltiples desafíos. Se trata de las conocidas como 5 Vs: Volumen, Velocidad, Variedad,
Veracidad y Valor, que definen la problemática del Big Data.

Estas 5 características del big data provocan que las empresas tengan problemas para extraer
datos reales y de alta calidad, de conjuntos de datos tan masivos, cambiantes y complicados.

Hasta la llegada del Big Data, mediante ETL (Extract, Transform and Load o extraer,
transformar y cargar) podíamos cargar la información estructurada que teníamos almacenada
en nuestro sistema ERP y CRM, por ejemplo. Pero ahora, podemos cargar información
adicional que ya no se encuentra dentro de los dominios de la empresa: comentarios o likes en
redes sociales, resultados de campañas de marketing, datos estadísticos de terceros, etc.
Todos estos datos nos ofrecen información que nos ayuda a saber si nuestros productos o
servicios están funcionando bien o por el contrario están teniendo problemas.

Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son:

3.1. Muchas fuentes y tipos de datos


Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integración de
datos aumenta.

Las fuentes de datos de big data son muy amplias:

o Datos de internet y móviles.


o Datos de Internet de las Cosas.
o Datos sectoriales recopilados por empresas especializadas.
o Datos experimentales.

Y los tipos de datos también lo son:

1. Tipos de datos no estructurados: documentos, vídeos, audios, etc.


2. Tipos de datos semi-estructurados: software, hojas de cálculo, informes.
3. Tipos de datos estructurados

Solo el 20% de información es estructurada y eso puede provocar muchos errores si no


acometemos un proyecto de calidad de datos.

3.2. Tremendo volumen de datos


Como ya hemos visto, el volumen de datos es enorme, y eso complica la ejecución de un
proceso de calidad de datos dentro de un tiempo razonable.

Es difícil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rápida. Se
necesita mucho tiempo para transformar los tipos no estructurados en tipos estructurados y
procesar esos datos.
3.3. Mucha volatilidad
Los datos cambian rápidamente y eso hace que tengan una validez muy corta. Para
solucionarlo necesitamos un poder de procesamiento muy alto.

Si no lo hacemos bien, el procesamiento y análisis basado en estos datos puede producir


conclusiones erróneas, que pueden llevar a cometer errores en la toma de decisiones.

4.4. No existen estándares de calidad de datos unificados


En 1987 la Organización Internacional de Normalización (ISO) publicó las normas ISO 9000 para
garantizar la calidad de productos y servicios. Sin embargo, el estudio de los estándares de
calidad de los datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando ISO
publicó las normas de calidad de datos ISO 8000.

Estas normas necesitan madurar y perfeccionarse. Además, la investigación sobre la calidad de


datos de big data ha comenzado hace poco y no hay apenas resultados.

La calidad de datos de big data es clave, no solo para poder obtener ventajas competitivas sino
también impedir que incurramos en graves errores estratégicos y operacionales basándonos
en datos erróneos con consecuencias que pueden llegar a ser muy graves.

4. Cómo construir un plan de Data Governance en Big data


Gobernabilidad significa asegurarse de que los datos estén autorizados, organizados y con los
permisos de usuario necesarios en una base de datos, con el menor número posible de
errores, manteniendo al mismo tiempo la privacidad y la seguridad.

Esto no parece un equilibrio fácil de conseguir, sobre todo cuando la realidad de dónde y cómo
los datos se alojan y procesan está en constante movimiento.

A continuación veremos algunos pasos recomendados al crear un plan de Data Governance en


Big Data.

4.1. Acceso y Autorización Granular a Datos


No se puede tener un gobierno de datos efectivo sin controles granulares.

Se pueden lograr estos controles granulares a través de las expresiones de control de acceso.
Estas expresiones usan agrupación y lógica booleana para controlar el acceso y autorización de
datos flexibles, con permisos basados en roles y configuraciones de visibilidad.

En el nivel más bajo, se protegen los datos confidenciales, ocultándolos, y en la parte superior,
se tienen contratos confidenciales para científicos de datos y analistas de BI. Esto se puede
hacer con capacidades de enmascaramiento de datos y diferentes vistas donde se bloquean
los datos en bruto tanto como sea posible y gradualmente se proporciona más acceso hasta
que, en la parte superior, se da a los administradores una mayor visibilidad.

Se pueden tener diferentes niveles de acceso, lo que da una seguridad más integrada.

4.2. Seguridad perimetral, protección de datos y autenticación integrada


La gobernabilidad no ocurre sin una seguridad en el punto final de la cadena. Es importante
construir un buen perímetro y colocar un cortafuegos alrededor de los datos, integrados con
los sistemas y estándares de autenticación existentes. Cuando se trata de autenticación, es
importante que las empresas se sincronicen con sistemas probados.
Con la autenticación, se trata de ver cómo integrarse con LDAP [Lightweight Directory Access
Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a
herramientas como Kerberos para soporte de autenticación. Pero lo importante es no crear
una infraestructura separada, sino integrarla en la estructura existente.

El Protocolo ligero de acceso a directorios (en inglés, Lightweight Directory Access


Protocol, LDAP) es un conjunto de protocolos abiertos usados para acceder
información guardada centralmente a través de la red. Está basado en el estándar
X.500 para compartir directorios, pero es menos complejo e intensivo en el uso de
recursos. Es un directorio que contiene información de forma jerárquica y
categorizada, que puede incluir nombres, directorios y números telefónicos.

LDAP organiza la información en un modo jerárquico usando directorios. Estos


directorios pueden almacenar una gran variedad de información y se pueden incluso
usar de forma similar al Servicio de información de red (NIS), permitiendo que
cualquiera pueda acceder a su cuenta desde cualquier máquina en la red acreditada
con LDAP.

LDAP es un sistema cliente/servidor. El servidor puede usar una variedad de bases de


datos para guardar un directorio, cada uno optimizado para operaciones de lectura
rápidas y en gran volúmen. Cuando una aplicación cliente LDAP se conecta a un
servidor LDAP puede, o bien consultar un directorio, o intentar modificarlo. En el
evento de una consulta, el servidor, puede contestarla localmente o puede dirigir la
consulta a un servidor LDAP que tenga la respuesta. Si la aplicación cliente está
intentando modificar información en un directorio LDAP, el servidor verifica que el
usuario tiene permiso para efectuar el cambio y después añade o actualiza la
información.

Active Directory o directorio activo es una estructura jerárquica de directorios que


almacena, en una base de datos, información sobre redes y dominios, es utilizado por
equipos Microsoft Windows.

Se utiliza principalmente para obtener información en línea, está diseñado


especialmente para entornos de red distribuidos, utiliza protocolos como LDAP, DNS,
DHCP y otros.

Maneja un gran número de operaciones de lectura y de búsqueda y un número


significativamente menor de los cambios y actualizaciones.

La base de datos de Active Directory se compone de objetos y atributos. Objetos y


definiciones de atributos se almacenan en el esquema de Active Directory.

La estructura de un directorio activo (active directory) esta generalmente dividido en


tres categorías principales:

o Recursos de hardware, como computadoras e impresoras


o Servicios para los usuarios finales, tales como servidores web y correo electrónico.
o Objetos que son las principales funciones de dominio y de red.

Active Directory es un sistema centralizado y estandarizado que automatiza la gestión


de red, esto es: información de usuarios, seguridad y distribución de recursos.
Kerberos es un protocolo de autenticación de redes de ordenador creado por el MIT
que permite a dos ordenadores en una red insegura demostrar su identidad
mutuamente de manera segura.

4.3. Encriptación y Tokenización de Datos


El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de
datos que se está otorgando es asegúrese de que los archivos y la información personalmente
identificable (PII) (Personally Identifiable Information) estén encriptados y tokenizados de
extremo a extremo del pipeline de datos.

Una vez superado el perímetro y con acceso al sistema, proteger los datos de PII es
extremadamente importante. Es necesario encriptar esos datos de forma que,
independientemente de quién tenga acceso a él, puedan ejecutar los análisis que necesiten sin
exponer ninguno de esos datos.

4.4. Constante Auditoría y Análisis


La estrategia no funciona sin una auditoría. Ese nivel de visibilidad y responsabilidad en cada
paso del proceso es lo que permite a la TI "gobernar" los datos en lugar de simplemente
establecer políticas y controles de acceso y esperar lo mejor. También es cómo las empresas
pueden mantener sus estrategias actualizadas en un entorno en el que la forma en que vemos
los datos y las tecnologías que utilizamos para administrarlos y analizarlos están cambiando
cada día.

Estamos en la infancia de Big Data e IoT (Internet de Cosas), y es fundamental poder rastrear el
acceso y reconocer patrones en los datos.

La auditoría y el análisis pueden ser tan simples como el seguimiento de los archivos de
JavaScript Object Notation (JSON).

4.5. Una arquitectura de datos unificada


En última instancia, el responsable de TI que supervisar la estrategia de administración de
datos empresariales, debe pensar en los detalles del acceso granular, la autenticación, la
seguridad, el cifrado y la auditoría. Pero no debe detenerse ahí. Más bien debe pensar en
cómo cada uno de estos componentes se integra en su arquitectura de datos global. También
debe pensar en cómo esa infraestructura va a necesitar ser escalable y segura, desde la
recolección de datos y almacenamiento hasta BI, analítica y otros servicios de terceros. La
gobernanza de los datos es tanto acerca de repensar la estrategia y la ejecución como sobre la
propia tecnología.

Va más allá de un conjunto de reglas de seguridad. Es una arquitectura única en la que se


crean estos roles y se sincronizan a través de toda la plataforma y todas las herramientas que
se aportan a ella.
Data lake

Un data lake es un entorno de datos compartidos en su formato original que comprende


múltiples repositorios y aprovecha las tecnologías de big data.

Índice de contenidos

1. ¿Qué es Data Lake?

2. Principales diferencias entre Data Lakes y Data Warehouses

3. Mejores prácticas para sacar todo el partido de tus datos lagos

4. El Data Lake inteligente

Un data lake es capaz de proporcionar datos a la organización para una gran variedad de
procesos analíticos diferentes:

o Descubrimiento y exploración de datos


o Análisis ad hoc simple
o Análisis complejo para toma de decisiones
o Informes
o Análisis en tiempo real

Un Data Warehouse es un almacén electrónico donde generalmente una empresa u


organización mantiene una gran cantidad de información. Los datos de un data
warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de
administrar.

¿Qué es un Data Warehouse?


Es un repositorio unificado para todos los datos que recogen los diversos sistemas de
una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de
datos de diversas fuentes sobre todo para fines analíticos y de acceso.

Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez más,


en la nube. Los datos de diferentes aplicaciones de procesamiento de transacciones
Online (OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones
analíticas y de consultas por usuarios.

Data Warehouse es una arquitectura de almacenamiento de datos que permite a los


ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar
decisiones estratégicas. Un data warehouse es una arquitectura conocida ya en
muchas empresas modernas.

1. ¿Qué es Data Lake?


Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos
en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse
jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura
plana para almacenar los datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un


conjunto de etiquetas de metadatos extendidas. Cuando se presenta una cuestión de negocios
que debe ser resuelta, podemos solicitarle al data lake los datos que estén relacionados con
esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para
ayudar a obtener una respuesta.

El data lake se asocia a menudo con el almacenamiento de objetos orientado a Hadoop. En


este escenario, los datos de una organización se cargan primero en la plataforma Hadoop y, a
continuación, se aplican las herramientas de análisis y de minería de datos a los datos que
residen en los nodos clúster de Hadoop.

Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y


analizar grandes volúmenes de datos.

Al igual que con big data, el término data lake a veces se desacredita diciendo que es una
simple etiqueta de marketing para un producto que soporta Hadoop. Cada vez más, sin
embargo, el término está siendo aceptado como una forma de describir cualquier gran
conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los
datos se consultan.

¿Cuáles son los beneficios de un data lake?


El principal beneficio de un data lake es la centralización de fuentes de contenido dispares.
Una vez reunidas (de sus "silos de información"), estas fuentes pueden ser combinadas y
procesadas utilizando big data, búsquedas y análisis que de otro modo hubieran sido
imposibles. Las fuentes de contenido dispares a menudo contienen información confidencial
que requerirá la implementación de las medidas de seguridad apropiadas en el data lake.

Las medidas de seguridad en el data lake pueden ser asignadas de manera que se otorga
acceso a cierta información a los usuarios del data lake que no tienen acceso a la fuente de
contenido original. Estos usuarios tienen derecho a la información, pero no pueden acceder a
ella en su fuente por alguna razón.

Es posible que algunos usuarios no necesiten trabajar con los datos en el origen de contenido
original, sino consumir los datos resultantes de los procesos incorporados a dichos orígenes.
Puede haber un límite de licencias para el origen de contenido original que impide que algunos
usuarios obtengan sus propias credenciales. En algunos casos, la fuente de contenido original
se ha bloqueado, está obsoleta o se desactivará en breve, sin embargo, su contenido sigue
siendo valioso para los usuarios del data lake.

Una vez que el contenido está en el data lake, puede normalizarse y enriquecerse. Esto puede
incluir extracción de metadatos, conversión de formatos, aumento, extracción de entidades,
reticulación, agregación, des-normalización o indexación.

Los datos se preparan "según sea necesario", lo que reduce los costos de preparación sobre el
procesamiento inicial (tal como sería requerido por los data warehouses). Una estructura de
big data permite escalar este procesamiento para incluir los conjuntos de datos más grandes
posibles.
Los usuarios, de diferentes departamentos, potencialmente dispersos por todo el mundo,
pueden tener acceso flexible a un data lake y a su contenido desde cualquier lugar. Esto
aumenta la reutilización del contenido y ayuda a la organización a recopilar más fácilmente los
datos necesarios para impulsar las decisiones empresariales.

La información es poder, y un data lake pone la información de toda la empresa en manos de


muchos más empleados para hacer a la organización un todo más inteligente, más ágil y más
innovadora.

2. Principales diferencias entre Data Lakes y Data Warehouses


A continuación, destacaremos cinco elementos diferenciadores clave de un data lake y cómo
contrastan con el enfoque del data warehouse.

1. Una Data Lake conserva todos los datos


Durante el desarrollo de un data warehouse, se gasta una cantidad considerable de tiempo
analizando las fuentes de datos, entendiendo los procesos de negocio y perfilando los datos.
El resultado es un modelo de datos altamente estructurado diseñado para la generación de
informes. Una gran parte de este proceso incluye tomar decisiones sobre qué datos incluir y
no incluir en el almacén. Generalmente, si los datos no se utilizan para responder a preguntas
específicas o en un informe definido, pueden excluirse del almacén. Esto se hace generalmente
para simplificar el modelo de datos y también para conservar el costoso espacio en el
almacenamiento de disco que se utiliza para hacer el data warehouse.

En contraste, el data lake conserva todos los datos. No sólo los datos que se utilizan
actualmente, sino los datos que se pueden utilizar e incluso los datos que nunca se van a ser
utilizados sólo porque quizás podrían ser utilizados algún día. Los datos también se mantienen
todo el tiempo para que podamos volver en el tiempo a cualquier punto para hacer el análisis.

Este enfoque se hace posible porque el hardware para un data lake suele ser muy diferente del
utilizado para un data warehouse. La ampliación de un data lake a terabytes y petabytes puede
hacerse de manera bastante económica.

2. Un Data Lake soporta todos los tipos de datos


Los data warehouses generalmente se componen de datos extraídos de sistemas
transaccionales junto con métricas cuantitativas y los atributos que las describen. Las fuentes
de datos no tradicionales, como los registros del servidor web, los datos de sensores, la
actividad de las redes sociales, el texto y las imágenes, se ignoran en gran medida. Se siguen
encontrando nuevos usos para estos tipos de datos, pero consumirlos y almacenarlos puede
ser costoso y difícil.

El enfoque del data lake abarca estos tipos de datos no tradicionales. En el data lake,
guardamos todos los datos independientemente de la fuente y la estructura. Los mantenemos
en su forma bruta y sólo los transformamos cuando estamos listos para usarlos. Este enfoque
se conoce como "Schema on Read" en comparación con el "Schema on Write" que es el
enfoque utilizado en el data warehouse.
3. Un Data Lakes soporta a todos los usuarios
En la mayoría de las organizaciones, el 80% o más de los usuarios son "operacionales". Quieren
obtener sus informes, ver sus KPIs (Indicador clave de rendimiento) o seleccionar el mismo
conjunto de datos en una hoja de cálculo todos los días. El data warehouse suele ser ideal para
estos usuarios porque está bien estructurado, fácil de usar y comprender y está diseñado para
responder a sus preguntas.

El siguiente 10% más o menos, hace más análisis en esos datos. Utilizan el data warehouse
como una fuente, pero a menudo vuelven a los sistemas de origen para obtener datos que no
están incluidos en el almacén y a veces traen datos de fuera de la organización. Su herramienta
favorita es la hoja de cálculo y crean nuevos informes que a menudo se distribuyen en toda la
organización. El data warehouse es su fuente de acceso a los datos, pero a menudo van más
allá de sus límites

Por último, el restante tanto por ciento de los usuarios hace un análisis profundo. Pueden
crear fuentes de datos totalmente nuevas basadas en la investigación. Ellos mezclan muchos
tipos diferentes de datos y llegan a nuevas preguntas que deben responderse. Estos usuarios
pueden utilizar el data warehouse, pero a menudo lo ignoran, ya que normalmente se les
solicita que vayan más allá de sus capacidades. Estos usuarios incluyen a los científicos de
datos y pueden utilizar avanzadas herramientas analíticas y capacidades como el análisis
estadístico y el modelado predictivo.

El enfoque del data lake soporta igualmente a todos estos usuarios. Los científicos de datos
pueden ir al data lake y trabajar con el gran y variado conjunto de datos que necesitan,
mientras que otros usuarios hacen uso de vistas más estructuradas de los datos
proporcionadas para su uso.

4. Los Data Lakes se adaptan fácilmente a los cambios


Una de las principales quejas sobre los data warehouses es cuánto tiempo se tarda en
cambiarlos. Un tiempo considerable se gasta por adelantado durante el desarrollo de la
estructura del almacén. Un buen diseño de almacén puede adaptarse al cambio, pero debido a
la complejidad del proceso de carga de datos y al trabajo realizado para facilitar el análisis y la
elaboración de informes, estos cambios necesariamente consumirán algunos recursos de
desarrolladores y tomarán algún tiempo.

Muchas preguntas comerciales no pueden esperar a que el equipo del data warehouse adapte
su sistema para responderlas. La necesidad cada vez mayor de respuestas más rápidas es lo
que ha dado lugar al concepto de auto-servicio de inteligencia empresarial.

En el data lake, por otro lado, como todos los datos se almacenan en bruto y siempre con
accesibles a alguien que necesite utilizarlos, los usuarios tienen el poder de ir más allá de la
estructura del almacén para explorar datos de nuevas maneras y responder a sus preguntas a
su ritmo.

Si se demuestra que el resultado de una exploración es útil y existe el deseo de repetirlo,


entonces se puede aplicar un esquema más formal y se puede desarrollar la automatización y
la reutilización para ayudar a extender los resultados a un público más amplio. Si se determina
que el resultado no es útil, puede descartarse y no se han realizado cambios en las estructuras
de datos ni se han consumido recursos de desarrollo.

5. Los Data Lakes proporcionan una visión más rápida


Esta última diferencia es realmente el resultado de las otras cuatro. Debido a que los data
lakes contienen todos los datos y tipos de datos, y a que permite a los usuarios acceder a los
datos antes de que se hayan transformado, limpiado y estructurado, permite a los usuarios
llegar a sus resultados más rápido que el método tradicional de data warehouse.

Sin embargo, este acceso temprano a los datos tiene un precio. El trabajo típicamente
realizado por el equipo de desarrollo de data warehouse no se puede hacer para algunas o
todas las fuentes de datos requeridas para realizar un análisis. Esto permite a los usuarios
explorar y usar los datos como mejor les parezca, pero el primer nivel de usuarios de negocios
que he descrito anteriormente tal vez no quiera hacer ese trabajo. Todavía quieren sus
informes y KPI's.

En los data lakes, estos consumidores de informes operativos harán uso de vistas más
estructuradas de los datos en el data lake que se parecen a lo que siempre han tenido antes en
el data warehouse. La diferencia es que estas vistas existen principalmente como metadatos
que se sitúan sobre los datos en el lago en lugar de tablas físicamente rígidas que requieren un
desarrollador para cambiarlas.

3. Mejores prácticas para sacar todo el partido de tus datos lagos


Después de lo que hemos visto, ¿estás ya listo para construir un data lake?

Veamos primero una lista de lo que necesitas para asegurarte de que lo estás haciendo de una
manera controlada pero flexible.

Lista de prioridades de beneficios empresariales


Al iniciar un proyecto de data lake, es necesario tener una alineación muy fuerte con el
negocio. Después de todo, el data lake necesita proporcionar el valor que el negocio no está
recibiendo de su data warehouse.

Esto puede hacerse resolviendo “paint points” o creando nuevos flujos de ingresos netos que
pueden ofrecer los distintos equipos de negocio. Ser capaz de definir y articular este valor
desde un punto de vista empresarial y convencer a socios a unirse en este viaje es muy
importante para su éxito.

Supervisión arquitectónica
Una vez que tienes la alineación del negocio y sabes cuáles son sus prioridades, necesitas
definir la arquitectura inicial: ¿cuáles son los diversos componentes que necesitarás, y cómo
será la plataforma técnica final? Ten en cuenta que se trata de una inversión a largo plazo, por
lo que necesitas pensar cuidadosamente acerca de hacia dónde se está moviendo la
tecnología. Naturalmente, es posible que no tengas todas las respuestas por adelantado, por lo
que podría ser necesario realizar una prueba de concepto para obtener alguna experiencia y
afinar y aprender a lo largo del camino. Un aspecto especialmente importante de tus planes
arquitectónicos es una buena estrategia de gestión de datos que incluya el gobierno de datos y
los metadatos, y cómo captará eso. Es crítico si se quiere construir un data lake administrado y
gobernado en lugar del temido "pantano de datos".

Estrategia de seguridad
Esboza una estrategia de seguridad robusta, especialmente si tu data lake va a ser una
plataforma compartida utilizada por múltiples líneas de unidades de negocio o por partes
interesadas tanto internas como externas. La privacidad y la seguridad de los datos son
fundamentales, especialmente para los datos confidenciales. Puede que incluso tengas que
incluir reglas regulatorias. También debes pensar en multiusuario: ciertos usuarios pueden no
ser capaces de compartir datos con otros usuarios. Si se está sirviendo a varias audiencias
externas, cada cliente puede tener acuerdos de datos individuales y deben respetarse.

I/O y modelo de memoria


Como parte de la plataforma tecnológica y su arquitectura, se debe pensar en lo que será las
capacidades de escalar del data lake. Por ejemplo, ¿se va a usar el desacoplamiento entre el
almacenamiento y las capas de computación? Si ese es el caso, ¿cuál es la capa de
almacenamiento persistente? Se deben comprender a fondo los requisitos de rendimiento
desde el punto de vista de la ingesta de datos, lo que determinará el rendimiento para el
almacenamiento y la red, así como si se pueden procesar datos de manera oportuna.

Evaluación del conjunto de habilidades de la fuerza de trabajo


Para que cualquier proyecto de data lake tenga éxito, tienes que tener la gente adecuada.
Necesitas expertos que tengan experiencia práctica en la creación de plataformas de datos y
que tengan una amplia experiencia en gestión de datos y data governance para que se puedan
definir las políticas y procedimientos por adelantado. También necesitas científicos de datos
que serán consumidores de la plataforma. Debes utilizarlos durante la etapa de diseño ya que
son partes interesadas y escuchar sus requerimientos y cómo preferirían interactuar con el
data lake cuando esté terminado es muy importante.

Plan de operaciones

Piensa en el data lake desde una perspectiva de acuerdo de nivel de servicio (SLA): ¿qué
requisitos de SLA esperan tus interlocutores empresariales?, especialmente en lo que se
refiere a aplicaciones críticas para el negocio que afectan ingresos. Se necesitan SLAs
adecuados en términos de tiempo de inactividad, y en términos de datos que son ingeridos,
procesados y transformados de una manera repetible. Volviendo al punto de las personas y
habilidades, es fundamental contar con las personas adecuadas con experiencia en la gestión
de estos entornos, para formar un equipo de operaciones para apoyar los acuerdos de nivel de
servicio y cumplir con los requisitos del negocio.

Plan de comunicaciones

Una vez que tengas el data lake en su sitio, ¿cómo se anunciará este hecho en la empresa y
como traerás usuarios adicionales? Es necesario conseguir diferentes interesados de negocios
y mostrar algunos éxitos para su entorno de data lake para prosperar. Como cualquier otra
plataforma de TI, su éxito, en última instancia, se basa en su adopción por parte del negocio.
Plan de recuperación de desastres

Dependiendo de la criticidad de negocio de tu data lake y de los diferentes SLAs que tengas
con los diferentes grupos de usuarios, necesitarás un plan de recuperación de desastres que
pueda soportarlo.

4. El Data Lake inteligente

Las organizaciones buscan aprovechar las nuevas plataformas de procesamiento de datos,


como Apache Hadoop, para poder llevar a cabo algunas ideas previas inaceptables. La
aparición de Apache Hadoop y el concepto de data lake ofrece a las organizaciones el lujo de
agrupar todos los datos para que sean accesibles por los usuarios en cualquier momento para
cualquier tipo de análisis.

Las organizaciones recolectan datos de clientes y de mercado por su potencial para mejorar las
experiencias e impulsar el crecimiento del negocio. Las instituciones financieras están
ahorrando y monitorizando los datos transaccionales y otras señales relacionadas con el fin de
enriquecer las técnicas de detección de fraude, mantenerse al día con las regulaciones globales
cambiantes y aumentar la confianza del consumidor en la seguridad de sus servicios. Las
organizaciones relacionadas con temas de salud están preservando los datos de registros
médicos electrónicos y los datos de reclamaciones con el fin de impulsar un cuidado de la
salud más personalizado. La oportunidad de aprovechar los datos nunca ha sido mayor que
con la tecnología de big data.

El desafío

El gran volumen de datos que se ingeren en los sistemas Hadoop es abrumador. Los analistas
de negocio esperan ansiosamente datos de calidad procedentes de Hadoop. Mientras tanto, TI
permanece sobrecargada con procesos manuales y con falta de tiempo para recopilar datos en
bruto en aquellos activos de datos que son aptos para el propósito que se pide. Big data no
siempre puede cumplir su promesa de traer progreso debido a las complejas tecnologías y los
recursos adicionales requeridos para extraer valor.

Sin mecanismos escalables, repetibles e inteligentes para curar datos, toda la oportunidad que
los data lakes prometen puede estancarse. La capacidad de convertir big data en información
valiosa de negocios con los datos correctos entregados en el momento adecuado es, en última
instancia, lo que separará a los precursores organizacionales de los rezagados.

La solución
Los data lakes por sí solos son sólo medios para un fin. Para lograr el objetivo final de
proporcionar conocimientos empresariales, se necesita inteligencia de máquina impulsada por
servicios de metadatos universales. Los servicios de metadatos universales catalogan los
metadatos adjuntos a los datos, tanto dentro como fuera de Hadoop, y también capturan los
tags proporcionados por el usuario sobre el contexto empresarial de los datos.

Los conocimientos empresariales fluyen desde un data lake inerte a través del valor añadido
derivado de la catalogación tanto de la calidad como del estado de los datos dentro del data
lake. Y también de las capacidades colaborativas de preparación de datos de autoservicio
aplicadas a esos datos. Por lo tanto, el Data Lake Inteligente permite que big data sin procesar
sean sistemáticamente transformado en conjuntos de datos aptos para el propósito y para una
variedad de consumidores de datos. Con esta implementación, las organizaciones pueden
convertir rápida y repetidamente big data en activos de información confiables que aporten un
valor comercial sostenible.

Características principales

Buscar datos

Los analistas de negocio anhelan una manera eficiente de administrar el "volumen, variedad y
velocidad" cada vez mayor asociado típicamente al big data. El Data Lake Inteligente descubre
los datos de los clientes existentes a través de un proceso automatizado de descubrimiento
basado en el machine learning. Este proceso de descubrimiento transforma los activos de
datos correlacionados en recomendaciones inteligentes de nuevos activos de datos que
pueden ser de interés para el analista. Los activos de datos también pueden buscarse gracias al
proceso de catalogación de metadatos, que permite a los analistas de negocios encontrar y
acceder fácilmente a casi cualquier información de su organización.

Descubriendo las relaciones de datos que importan

Los analistas de negocios a menudo se limitan a los datos encerrados en silos de datos y, a
menudo, desconocen que los regímenes regulatorios y los marcos de cumplimiento protegen
cada vez más la privacidad de los consumidores y abordan los problemas de seguridad. Un
Data Lake Inteligente analiza eficazmente esos silos, al mismo tiempo que mantiene el linaje
de los datos y realiza un seguimiento de su uso.

Los analistas de negocio se benefician, por lo tanto, de las ideas derivadas de los activos de
datos anteriormente compartidos pero ahora universalmente accesibles. Y TI puede confiar en
que se respeten los mecanismos generales de seguridad y gobernanza para cumplir con los
controles internos y las políticas externas.

Prepara y comparte rápidamente los datos que necesitas


A medida que los ciclos económicos continúan disminuyendo, la velocidad es una de las pocas
ventajas competitivas que las organizaciones pueden confiar en la carrera para agregar valor al
negocio. Los analistas de negocios esperan obtener de los datos más de lo que están a punto
de perder. Un Data Lake Inteligente te permite preparar y compartir rápidamente datos que
son fundamentales para ofrecer analíticas competitivas.

La preparación de datos de autoservicio proporciona una interfaz familiar y fácil de usar para
los analistas de negocios, que les permite combinar rápidamente los datos con los
conocimientos que necesitan. La colaboración entre analistas de datos también juega un papel
importante. El etiquetado y el intercambio de datos de crowdsourcing permite a los analistas
de negocios colaborar en el proceso de recuperación de datos. También agrega valor
aprovechando la sabiduría de todos y aumenta la eficiencia operativa, permitiendo que las
personas adecuadas obtengan más de datos correctos en el momento adecuado.

Operacionalizar la preparación de datos en flujos de trabajo reutilizables

Independientemente de la automatización y las herramientas de autoservicio, los analistas a


menudo tienen que repetir las mismas actividades de preparación de datos con nuevos
conjuntos de datos. Esto simplemente despilfarra cualquier ganancia si no hay reutilización. Un
Data Lake Inteligente te permite guardar pasos de preparación de datos y luego reproducir
rápidamente esos pasos dentro de procesos automatizados. Esto transforma la preparación de
datos de un proceso manual a una máquina reutilizable, sostenible y operacionalizada. Se debe
establecer un Data Lake Inteligente como parte de la estrategia de gestión de información hoy
para convertir rápida y repetidamente más big data en valor de negocio sin aumentar el riesgo.

También podría gustarte