0% encontró este documento útil (0 votos)
41 vistas26 páginas

Procesos ETL en Business Intelligence

El documento describe los procesos ETL (Extract, Transform, Load), que permiten mover y transformar datos de múltiples fuentes para cargarlos en un almacén de datos. El proceso ETL consta de tres fases: extracción de datos de las fuentes, transformación de los datos para unificar formatos y limpiarlos, y carga de los datos transformados en el almacén de datos. Esto facilita el análisis consolidado de datos provenientes de diferentes sistemas.

Cargado por

Erandi Alcaraz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
41 vistas26 páginas

Procesos ETL en Business Intelligence

El documento describe los procesos ETL (Extract, Transform, Load), que permiten mover y transformar datos de múltiples fuentes para cargarlos en un almacén de datos. El proceso ETL consta de tres fases: extracción de datos de las fuentes, transformación de los datos para unificar formatos y limpiarlos, y carga de los datos transformados en el almacén de datos. Esto facilita el análisis consolidado de datos provenientes de diferentes sistemas.

Cargado por

Erandi Alcaraz
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

BUSINESS INTELLIGENCE (BI)

Método extract, transform and load, ETL Las distintas fases o secuencias de un proceso
ETL son las siguientes:
Los procesos ETL son un término estándar Extracción de los datos desde uno o varios
que se utiliza para referirse al movimiento y sistemas fuente.
transformación de datos. Se trata del proceso Transformación de dichos datos, es decir,
que permite a las organizaciones mover datos posibilidad de reformatear y limpiar estos
desde múltiples fuentes, reformatearlos y datos cuando sea necesario.
cargarlos en otra base de datos (denominada
data mart o data warehouse) con el objeto de Carga de dichos datos en otro lugar o base de
analizarlos. También pueden ser enviados a datos, un data mart o un data warehouse, con
otro sistema operacional para apoyar un el objeto de analizarlos o apoyar un proceso
proceso de negocio. de negocio.

En definitiva, el principal objetivo de este La limpieza de datos como etapa separada de


proceso es facilitar el movimiento de los datos los procesos ETL
y la transformación de los mismos, integrando
Aunque podría entenderse como una acción
los distintos sistemas y fuentes en la
integrada en la fase de transformación de
organización moderna.
datos, en la actualidad la tendencia es
considerar la limpieza de datos como una fase
separada del proceso ETL.
El término ETL corresponde a las siglas en
inglés de:

Extract: extraer. Esta visión corresponde a una concepción


más moderna y práctica del proceso. Para
Transform: transformar. ahorrar tiempo y ganar en efectividad es
Load: cargar. conveniente unificar criterios, por ejemplo,
introduciendo “av” en vez de “avenida” en
todos los registros de una base de datos de
direcciones postales, ANTES de empezar el
proceso ETL propiamente dicho.

Tan importante es tener la información


consolidada como que todos los datos sean
correctos y con una visión única para todos los
usuarios. Solo así se pueden lograr unos
circuitos de trabajo y análisis de dichos datos

realmente óptimos y efectivos.

¿Qué sistemas se pueden integrar en un


proceso ETL?
Fases de un proceso ETL
Los procesos ETL pueden incluir:

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 1


BUSINESS INTELLIGENCE (BI)

Sistemas legacy. Es decir, legados, heredados Proceso de Extracción con Software ETL
o antiguos.
La primera parte del proceso ETL consiste en
Sistemas nuevos. Basados en Windows, Linux extraer los datos desde los sistemas de
y también en las redes sociales modernas: origen. La mayoría de los proyectos de
Facebook, Twitter, Linkedin, etc. almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de
Los sistemas legacy o heredados se
origen. Cada sistema separado puede usar
caracterizan, generalmente, por: ser
una organización diferente de los datos o
cerrados, no permitir cambios y tener un
formatos distintos. Los formatos de las
difícil acceso (normalmente se necesita algún
fuentes normalmente se encuentran en bases
tipo de driver especial). Son sistemas que
de datos relacionales o ficheros planos, pero
procesan hacia dentro y, por lo tanto, no
pueden incluir bases de datos no relacionales
permiten la agregación de una computadora
u otras estructuras diferentes. La extracción
que trabaje en paralelo.
convierte los datos a un formato preparado
Por el contrario, los sistemas nuevos o para iniciar el proceso de transformación.
modernos (basados en Windows o Linux) son
Una parte intrínseca del proceso de
abiertos, amplios e interconectados. Un
extracción es la de analizar los datos
ejemplo lo constituiría una granja de
extraídos, de lo que resulta un chequeo que
servidores Linux, la cual permite la
verifica si los datos cumplen la pauta o
interconexión de los distintos nodos entre sí.
estructura que se esperaba. De no ser así los
datos son rechazados.

Un requerimiento importante que se debe


exigir a la tarea de extracción es que ésta
cause un impacto mínimo en el sistema
origen. Si los datos a extraer son muchos, el
sistema de origen se podría ralentizar e
incluso colapsar, provocando que éste no
pueda utilizarse con normalidad para su uso
cotidiano. Por esta razón, en sistemas grandes
las operaciones de extracción suelen
programarse en horarios o días donde este
impacto sea nulo o mínimo.

Proceso de Transformación con una


Herramienta ETL

La fase de transformación de un proceso de


ETL aplica una serie de reglas de negocio o
funciones sobre los datos extraídos para
convertirlos en datos que serán cargados.
Algunas fuentes de datos requerirán alguna

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 2


BUSINESS INTELLIGENCE (BI)

pequeña manipulación de los datos. No Proceso de Carga con Software de ETL


obstante, en otros casos pueden ser
La fase de carga es el momento en el cual los
necesarias aplicar algunas de las siguientes
datos de la fase anterior (transformación) son
transformaciones:
cargados en el sistema de destino.
•Seleccionar sólo ciertas columnas para su Dependiendo de los requerimientos de la
carga (por ejemplo, que las columnas con organización, este proceso puede abarcar una
valores nulos no se carguen). amplia variedad de acciones diferentes. En
algunas bases de datos se sobrescribe la
•Traducir códigos (por ejemplo, si la fuente
información antigua con nuevos datos. Los
almacena una “H” para Hombre y “M” para
data warehouse mantienen un historial de los
Mujer pero el destino tiene que guardar “1″
registros de manera que se pueda hacer una
para Hombre y “2″ para Mujer).
auditoría de los mismos y disponer de un
•Codificar valores libres (por ejemplo, rastro de toda la historia de un valor a lo largo
convertir “Hombre” en “H” o “Sr” en “1″). del tiempo.

•Obtener nuevos valores calculados (por Existen dos formas básicas de desarrollar el
ejemplo, total_venta = cantidad * precio). proceso de carga:

•Unir datos de múltiples fuentes (por •Acumulación simple: La acumulación simple


ejemplo, búsquedas, combinaciones, etc.). es la más sencilla y común, y consiste en
realizar un resumen de todas las
•Calcular totales de múltiples filas de datos transacciones comprendidas en el período de
(por ejemplo, ventas totales de cada región). tiempo seleccionado y transportar el
•Generación de campos clave en el destino. resultado como una única transacción hacia el
data warehouse, almacenando un valor
•Transponer o pivotar (girando múltiples calculado que consistirá típicamente en un
columnas en filas o viceversa). sumatorio o un promedio de la magnitud
•Dividir una columna en varias (por ejemplo, considerada.
columna “Nombre: García, Miguel”; pasar a •Rolling: El proceso de Rolling por su parte, se
dos columnas “Nombre: Miguel” y “Apellido: aplica en los casos en que se opta por
García”). mantener varios niveles de granularidad. Para
•La aplicación de cualquier forma, simple o ello se almacena información resumida a
compleja, de validación de datos, y la distintos niveles, correspondientes a distintas
consiguiente aplicación de la acción que en agrupaciones de la unidad de tiempo o
cada caso se requiera: ◦Datos OK: Entregar diferentes niveles jerárquicos en alguna o
datos a la siguiente etapa (Carga). varias de las dimensiones de la magnitud
almacenada (por ejemplo, totales diarios,
◦Datos erróneos: Ejecutar políticas de totales semanales, totales mensuales, etc.).
tratamiento de excepciones (por ejemplo,
rechazar el registro completo, dar al campo La fase de carga interactúa directamente con
erróneo un valor nulo o un valor centinela). la base de datos de destino. Al realizar esta
operación se aplicarán todas las restricciones
y triggers (disparadores) que se hayan

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 3


BUSINESS INTELLIGENCE (BI)

definido en ésta (por ejemplo, valores únicos, actualizadas cada pocos minutos, mientras
integridad referencial, campos obligatorios, que otras pueden tardar días o semanas). En
rangos de valores). Estas restricciones y un sistema de ETL será necesario que se
triggers (si están bien definidos) contribuyen puedan detener ciertos datos hasta que todas
a que se garantice la calidad de los datos en el las fuentes estén sincronizadas. Del mismo
proceso ETL, y deben ser tenidos en cuenta. modo, cuando un almacén de datos tiene que
ser actualizado con los contenidos en un
sistema de origen, es necesario establecer
Procesamiento en Herramientas ETL puntos de sincronización y de actualización.

Un desarrollo reciente en el software ETL es la


aplicación de procesamiento paralelo. Esto ha
permitido desarrollar una serie de métodos
para mejorar el rendimiento general de los Desafíos para los procesos y Herramientas
procesos ETL cuando se trata de grandes de ETL
volúmenes de datos. Hay 3 tipos principales
Los procesos ETL pueden ser muy complejos.
de paralelismos que se pueden implementar
Un sistema ETL mal diseñado puede provocar
en las aplicaciones ETL:
importantes problemas operativos.
•De datos: Consiste en dividir un único
En un sistema operacional el rango de valores
archivo secuencial en pequeños archivos de
de los datos o la calidad de éstos pueden no
datos para proporcionar acceso paralelo.
coincidir con las expectativas de los
•De segmentación (pipeline): Permitir el diseñadores a la hora de especificarse las
funcionamiento simultáneo de varios reglas de validación o transformación. Es
componentes en el mismo flujo de datos. Un recomendable realizar un examen completo
ejemplo de ello sería buscar un valor en el de la validez de los datos (Data profiling) del
registro número 1 a la vez que se suman dos sistema de origen durante el análisis para
campos en el registro número 2. identificar las condiciones necesarias para
que los datos puedan ser tratados
•De componente: Consiste en el
adecuadamente por las reglas de
funcionamiento simultáneo de múltiples
transformación especificadas. Esto conducirá
procesos en diferentes flujos de datos en el
a una modificación de las reglas de validación
mismo puesto de trabajo.
implementadas en el proceso ETL.
Estos tres tipos de paralelismo no son
Normalmente los data warehouse son
excluyentes, sino que pueden ser combinados
alimentados de manera asíncrona desde
para realizar una misma operación ETL.
distintas fuentes, que sirven a propósitos muy
diferentes. El proceso ETL es clave para lograr
que los datos extraídos asíncronamente de
Una dificultad adicional es asegurar que los orígenes heterogéneos se integren
datos que se cargan sean relativamente finalmente en un entorno homogéneo.
consistentes. Las múltiples bases de datos de
origen tienen diferentes ciclos de La escalabilidad de un sistema de ETL durante
actualización (algunas pueden ser su vida útil tiene que ser establecida durante

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 4


BUSINESS INTELLIGENCE (BI)

el análisis. Esto incluye la comprensión de los Sirve para integrar sistemas. Las
volúmenes de datos que tendrán que ser organizaciones crecen de forma orgánica y
procesados según los acuerdos de nivel de cada vez se van agregando más fuentes de
servicio (SLA: Service level agreement). El datos. Esto provoca que comience a surgir
tiempo disponible para realizar la extracción nuevas necesidades, como por ejemplo
de los sistemas de origen podría cambiar, lo integrar los datos de un banking on line con
que implicaría que la misma cantidad de datos los datos antiguos de un sistema legacy.
tendría que ser procesada en menos tiempo.
Poder tener una visión global de todos los
Algunos sistemas ETL son escalados para
datos consolidados en una data warehouse.
procesar varios terabytes de datos para
Por ejemplo, crear una estrategia de
actualizar un data warehouse que puede
marketing basándose en el análisis de los
contener decenas de terabytes de datos. El
datos anteriores.
aumento de los volúmenes de datos que
pueden requerir estos sistemas pueden hacer Proceso ETL: un sistema efectivo, pero con
que los lotes que se procesaban a diario pasen retos y cuestiones a resolver
a procesarse en micro-lotes (varios al día) o
incluso a la integración con colas de mensajes Como hemos visto, los procesos ETL son muy
o a la captura de datos modificados (CDC: útiles y beneficiosos para las organizaciones
change data capture) en tiempo real para una por su capacidad para integrar grandes bases
transformación y actualización continua. de datos, logrando así una visión única global
que permite, a los analistas y directivos,
tomar las decisiones estratégicas adecuadas.
Beneficios de los procesos ETL

A cualquier empresa u organización le La implantación de un sistema ETL bien


beneficia poner en marcha un proceso ETL definido supone todo un reto puesto que,
para mover y transformar los datos que para que sea realmente efectivo, debe
maneja por los siguientes motivos: permitir integrar los sistemas legacy (algunos
ya muy obsoletos) con los más modernos.
Poder crear una Master Data Management, es
Además, el acceso a todos estos sistemas se
decir, un repositorio central estandarizado de
debe producir no solo en modo de lectura,
todos los datos de la organización. Por
sino también como escritura.
ejemplo, si tenemos un objeto cliente en una
base de datos de créditos y otro objeto cliente
en la base de datos de tarjetas de crédito, lo
que haría el Master sería definir, de forma
concreta e inequívoca, un registro cliente
único con su nombre y apellidos para la
organización.

Posibilita a los directivos tomar decisiones


estratégicas basadas en el análisis de los datos
cargados en las bases nuevas y actualizadas:
la dama mart o data warehouse.

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 5


BUSINESS INTELLIGENCE (BI)

Bibliografía.

Introducción al business intelligence, Curto,


Josep; Conesa, Jordi

Cómo hacer inteligente su negocio. Business


intelligence a su alcance, Rodríguez, José
Miguel

Business intelligence guidebook: From data


integration to analytics, Sherman, Rick

http://www.powerdata.es/data-warehouse

http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/403694/BI-en-l-nea-el-
reto-actual-de-los-data-warehouses

https://revistadigital.inesem.es/informatica-
y-tics/guia-construir-datawarehouse/

https://www.fing.edu.uy/inco/grupos/csi/es
p/Publicaciones/2001/tr0118-vp.pdf

https://anibalgoicochea.com/perspectivas/b-
i/bi-dimensiones-y-metricas/

http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/lo-que-necesitas-saber-
acerca-de-la-arquitectura-de-un-
datawarehouse

http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/312584/procesos-etl-
definici-n-caracter-sticas-beneficios-y-retos

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 6


Grandes bases de datos
Big data

Definición de big data


Para entender qué significa realmente "big data", resulta útil
conocer ciertos antecedentes históricos. A continuación,
ofrecemos la definición de Gartner, de aproximadamente
2001 (y que continúa siendo la definición de referencia): Big
data son datos que contienen una mayor variedad y que se
presentan en volúmenes crecientes y a una velocidad
superior. Esto se conoce como "las tres V".
Dicho de otro modo, el big data está formado por conjuntos
de datos de mayor tamaño y más complejos, especialmente
procedentes de nuevas fuentes de datos. Estos conjuntos de
datos son tan voluminosos que el software de procesamiento
de datos convencional sencillamente no puede
administrarlos. Sin embargo, estos volúmenes masivos de
datos pueden utilizarse para abordar problemas
empresariales que antes no hubiera sido posible solucionar.

1 / 10
Historia de big data
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes
conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos
acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos
relacionales.

Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los
usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría
Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes
conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.

El desarrollo de marcos de código abierto, tales como Hadoop (y, más recientemente, Spark), sería
esencial para el crecimiento del big data, pues estos hacían que el big data fuera más fácil de usar y
más barato de almacenar. En los años transcurridos desde entonces, el volumen de big data se ha
disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos
no son los únicos que lo hacen.

Con la llegada de la Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos
conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los
productos. El surgimiento del aprendizaje autónomo ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad recién empieza. La computación en la nube ha
ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible,
donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto
de datos.

2
Las "tres V" de big data

• La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no
estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de
Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas
organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de
Volumen petabytes.

• La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se utilizan. Por lo general, la
mayor velocidad de los datos se transmite directamente a la memoria, en vez de escribirse en un disco.
Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en
Velocidad tiempo real y requieren una evaluación y actuación en tiempo real.

• La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales
eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big
data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no
Variedad estructurados y semiestructurados, como el texto, audio o video, requieren un preprocesamiento
adicional para poder obtener significado y habilitar los metadatos.

3
El valor y la veracidad de big data

En los últimos años, han surgido otras "dos V": valor y veracidad.

Los datos poseen un valor intrínseco.


Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta
igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en
ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las
mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de
sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar
nuevos productos.
.
Avances tecnológicos recientes han reducido exponencialmente el costo del
almacenamiento y la computación de datos, haciendo que almacenar datos resulte más
fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y
accesible, puede tomar decisiones empresariales más acertadas y precisas.

Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí
misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas,
usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen
patrones, tomen decisiones informadas y predigan comportamientos.

4
Casos de uso de big data

Desarrollo de productos Empresas como Netflix y Procter & Gamble usan big data para prever
la demanda de los clientes. Construyen modelos predictivos para
nuevos productos y servicios, clasificando atributos clave de
productos anteriores y actuales, y modelando la relación entre
dichos atributos y el éxito comercial de las ofertas. Además, P&G
utiliza los datos y los análisis de grupos de interés, redes sociales,
mercados de prueba y avances de salida en tiendas para planificar,
producir y lanzar nuevos productos.
Mantenimiento predictivo Los factores capaces de predecir fallas mecánicas pueden estar
profundamente ocultos entre datos estructurados (año del equipo,
marca o modelo de una máquina) o entre datos no estructurados que
cubren millones de entradas de registros, datos de sensores,
mensajes de error y temperaturas de motor. Al analizar estos
indicadores de problemas potenciales antes de que estos se
produzcan, las organizaciones pueden implementar el
mantenimiento de una forma más rentable y optimizar el tiempo de
servicio de componentes y equipos.
Experiencia del cliente La carrera por los clientes ya partió. Disponer de una vista clara de la
experiencia del cliente es más posible que nunca. El big data le
permite recopilar datos de redes sociales, visitas a páginas web,
registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido. Empiece a
preparar ofertas personalizadas, reducir las tasas de abandono de los
clientes y administrar las incidencias de manera proactiva.
5
Casos de uso de big data
Fraude y cumplimiento En lo que a seguridad se refiere, no se enfrenta a simples hackers
solitarios, sino a equipos completos de expertos. Los contextos de
seguridad y requisitos de conformidad están en constante evolución.
El big data le ayuda a identificar patrones en los datos que pueden
ser indicativos de fraude, al tiempo que concentra grandes
volúmenes de información para agilizar la generación de informes
normativos.
Aprendizaje autónomo El aprendizaje autónomo es un tema candente en la actualidad. Los
datos, concretamente big data, es uno de los motivos de que así sea.
Ahora, en lugar de programarse, las máquinas pueden aprender. Esto
es posible gracias a la disponibilidad de big data para crear modelos
de aprendizaje autónomo.
Eficiencia operativa Puede que la eficiencia operativa no sea la noticia más importante,
pero es el área en que big data tiene un mayor impacto. El big data le
permite analizar y evaluar la producción, la opinión de los clientes,
las devoluciones y otros factores para reducir las situaciones de falta
de stock y prever la demanda futura. El big data también puede
utilizarse para mejorar la toma de decisiones en función de la
demanda de mercado del momento.
Impulse la innovación Big data puede ayudarle a innovar mediante el estudio de las
interdependencias entre seres humanos, instituciones, entidades y
procesos, y, posteriormente, mediante la determinación de nuevas
maneras de usar dicha información. Utilice las perspectivas que le
ofrecen los datos para mejorar sus decisiones financieras y
consideraciones de planificación. Estudie las tendencias y lo que
desean los clientes para ofrecer nuevos productos y servicios.
Implemente políticas de precios dinámicas. Las posibilidades son
infinitas.
6
Desafíos de big data

Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.

En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han
desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos
duplica su tamaño cada dos años aproximadamente.
Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus
datos y por encontrar formas de almacenarlos eficazmente.

Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder
utilizarse, y esto depende de su conservación. Disponer de datos limpios es decir, datos
relevantes para el cliente y organizados de tal modo que permitan un análisis significativo
requiere una gran cantidad de trabajo.

Los científicos de datos dedican entre un 50 y un 80 por ciento de su tiempo a seleccionar


y preparar los datos antes de que estos puedan utilizarse.

Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache
Hadoop era la tecnología más conocida utilizada para administrar big data. Más tarde, en
2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una
combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data
supone un desafío constante.

7
Prácticas recomendadas de big data

Alinear big data con


La disponibilidad de conjuntos de datos más amplios le permite realizar
objetivos empresariales
nuevos hallazgos. A tal efecto, es importante basar las nuevas inversiones en
específicos
habilidades, organización o infraestructura con un marcado contexto
empresarial para garantizar la constancia en la financiación e inversión en
proyectos. Para determinar si se encuentra en el camino correcto, pregúntese
en qué medida el big data respalda y habilita sus principales prioridades
empresariales y de TI. Algunos ejemplos incluyen entender cómo filtrar los
registros web para comprender el comportamiento del comercio electrónico,
extraer la percepción de las redes sociales y de las interacciones de atención
al cliente, así como entender los métodos de correlación estadística y su
relevancia para los datos de clientes, productos, fabricación e ingeniería.

8
Mitigue la escasez de
habilidades con Uno de los mayores obstáculos para beneficiarse de su inversión en big data
estándares y gobierno es la escasez de habilidades. Puede mitigar el riesgo asegurándose de
incorporar a su programa de gobierno de TI tecnologías, consideraciones y
decisiones relativas a big data. Normalizar su enfoque le permitirá administrar
los costos y aprovechar los recursos. Las organizaciones que implementen
soluciones y estrategias de big data deben evaluar sus necesidades de
habilidades de forma temprana y frecuente, e identificar de manera proactiva
las posibles carencias de habilidades. Esto puede lograrse mediante la
capacitación regular o cruzada entre los recursos existentes, la contratación de
nuevos recursos y el uso de empresas de consultoría.

Optimizar la Utilice un enfoque basado en un centro de excelencia para compartir


transferencia de conocimientos, supervisar el control y administrar las comunicaciones de
conocimientos con un proyectos. Tanto si el big data es una inversión nueva o en expansión, los
centro de excelencia costos directos e indirectos pueden distribuirse en toda la empresa. Utilizar
este enfoque puede contribuir a incrementar las capacidades de big data y la
madurez del conjunto de la arquitectura de información de una forma más
sistemática y estructurada.

9
La principal ventaja Analizar el big data de forma aislada sin duda aporta valor. Sin embargo,
reside en alinear los puede obtener una perspectiva empresarial aún más valiosa relacionando e
datos estructurados y no integrando el big data de baja densidad con los datos estructurados que ya usa
estructurados actualmente.

Tanto si está recopilando big data de clientes, de productos, de equipos o


ambientales, el objetivo es añadir puntos de datos más relevantes a sus
resúmenes maestros y analíticos, lo que le permitirá obtener mejores
conclusiones. Por ejemplo, existe una diferencia en distinguir la percepción
de todos los clientes de la de solo sus mejores clientes. Por eso, muchos
consideran que big data constituye una extensión integral de sus capacidades
existentes de inteligencia empresarial, de su plataforma de almacenamiento
de datos y de su arquitectura de información.

10
Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser
tanto humanos como automáticos. Las capacidades de análisis de big data
incluyen estadísticas, análisis especiales, semántica, detección interactiva y
visualización. Mediante el uso de modelos analíticos, puede relacionar
distintos tipos y fuentes de datos para realizar asociaciones y hallazgos
significativos.
Planificar el laboratorio El concepto "hallazgo" implica que los datos no siempre se obtienen
de hallazgos en pro del directamente. En ocasiones, ni siquiera sabemos qué estamos buscando. Eso
rendimiento es de esperar. La dirección y los equipos de TI deben respaldar esta "falta de
dirección" o "falta de claridad en los requisitos".

Al mismo tiempo, es importante que analistas y científicos de datos colaboren


estrechamente con la empresa para entender las principales necesidades y las
carencias de conocimientos de la empresa. Para incorporar el estudio
interactivo de los datos y la experimentación de algoritmos estadísticos,
necesita contar con áreas de trabajo de alto rendimiento. Asegúrese de que
los entornos de pruebas (sandbox) tienen el apoyo que necesitan y están
correctamente gobernados.

11
Alineación con el Los usuarios y procesos de big data requieren acceso a una amplia variedad de
modelo operativo en la recursos de experimentación reiterativa y ejecución de tareas de producción.
nube Una solución de big data incluye todos los ámbitos de los datos, incluidas
transacciones, datos principales, datos de referencia y datos resumidos. Los
entornos de pruebas (sandbox) analíticos deben crearse a pedido. La
administración de recursos es fundamental para garantizar el control de todo
el flujo de datos, incluido el procesamiento previo y posterior, la integración,
el resumen dentro de la base de datos y la creación de modelos analíticos.
Disponer de una estrategia bien definida de aprovisionamiento y seguridad
en la nube pública y privada es fundamental para respaldar estos requisitos
cambiantes.

12
Ventajas de big data y del análisis de
datos:

•El big data le permite obtener respuestas más completas, ya que


dispone de mayor cantidad de información.

•La disponibilidad de respuestas más completas significa una mayor


fiabilidad de los datos, lo que implica un enfoque completamente distinto
a la hora de abordar problemas.

13
Bibliografía
Oracle. (1 de 1 de 2020). Oracle. Obtenido de ¿Qué es big data?: https://www.oracle.com/mx/big-
data/what-is-big-data.html

14
BUSINESS INTELLIGENCE (BI)

Inteligencia de negocios. 1. Reporteo corporativo o empresarial. Los


reporteadores se usaban para generar reportes
Los cinco estilos de BI. estáticos con un alto grado de control sobre el
formato visual, destinados a una amplia
Desde la década de los 90, las aplicaciones de distribución entre muchas personas.
Inteligencia de Negocios, o Business
Intelligence (BI), han evolucionado
dramáticamente y en muchas direcciones, 2. Análisis de Cubos. Capacidad analítica
tanto en la necesidad de acceso a los distintos sobre un subconjunto de datos. Dirigida a
datos que existen en las compañías, como en directivos que requieren un ambiente seguro y
el crecimiento exponencial que éstos han sencillo para explorar y analizar sobre un
tenido. Desde los informes operacionales de rango delimitado de datos.
“barra verde” generados por mainframes, a los
modelos estadísticos para campañas
publicitarias, los ambientes multi- 3. Análisis y consultas Ad Hoc. Las
dimensionales de OLAP para analistas, los herramientas OLAP relacionales eran
tableros de control para ejecutivos, las utilizadas por usuarios avanzados para
compañías comenzaron a demandar más investigar y analizar toda la base de datos,
opciones de reportes y análisis de datos. navegando hasta el nivel más detallado de
información, es decir, al nivel de transacción.
La dramática expansión de almacenamiento de
datos, combinada con la adopción extendida
de aplicaciones empresariales, tales como 4. Análisis estadístico y minería de datos.
ERPs y CRM, así como el aumento en la Aplicación de herramientas matemáticas,
cantidad de usuarios capaces de utilizar una estadísticas y financieras para encontrar
computadora, abasteció de combustible esta correlaciones, tendencias, proyecciones y
demanda exponencial para reportes BI y análisis financiero. Dirigido a analistas de
aplicaciones analíticas. información avanzados.

Durante este periodo de formación, las


empresas descubrieron muchas nuevas 5. Entrega de información y alertas. Los
maneras para utilizar sus activos de motores de distribución de información eran
información como apoyo a la toma de utilizados para enviar reportes o alarmas a
decisiones, a los reportes de operación y a la grandes grupos de usuarios, basándose en
optimización de procesos. Durante esta etapa suscripciones, itinerarios o acontecimientos.
de invención, los proveedores de tecnología BI
reaccionaron en la forma en que acostumbran Hasta el momento, la mayoría de las empresas
hacerlo ante la evolución del mercado, esto es, líderes han comprado diversas herramientas de
construyendo un software de nicho para BI a distintos proveedores; cada herramienta
implementar cada nuevo tipo de aplicación enfocada a una nueva aplicación BI, y cada
que las empresas creaban. Estos tipos de una, entregando funcionalidad enfocada en un
aplicación se convirtieron en productos de solo estilo de BI.
software centrados en solamente uno de los
diferentes estilos de BI que se describen a Una forma de organizar los estilos es
continuación: graficándolos a lo largo de dos dimensiones,
donde el eje vertical representa la sofisticación
e interactividad, mientras que el eje horizontal
muestra el tamaño de la población a quien está
dirigido. Esto se refleja en la siguiente figura:

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 1


BUSINESS INTELLIGENCE (BI)

Los Cinco Estilos de BI en un Escenario


Empresarial

En las organizaciones actuales, cada uno de los


empleados desde el Director General hasta el
personal de apoyo analiza información de
negocio de alguna forma y hasta cierto punto.

Este análisis puede ser deliberado y


exploratorio, automatizado a partir de
condiciones predefinidas, o incluso tan
embebido en los sistemas de uso diario, que no
Los estilos más sofisticados e interactivos son es reconocidos como BI. Sin embargo, una
utilizados por grupos de usuarios cosa queda clara: las organizaciones exitosas
relativamente pequeños, integrados por hacen uso máximo de sus activos de
analistas y usuarios avanzados, cuyo trabajo información a través de la tecnología de
principal está enfocado en los datos y su inteligencia de negocios.
análisis. Los estilos menos interactivos
proveen datos y los resultados básicos, Veamos el siguiente escenario, donde
aplicables a poblaciones grandes de usuarios, utilizamos un conjunto típico de análisis y
que van desde directores generales hasta el respuestas para mostrar los cinco estilos de BI
grueso del personal operativo. en la práctica:

Las organizaciones líderes han reconocido los


beneficios de poner información en manos de 1. Reporteo corporativo o empresarial
todos sus empleados, sin importar el cargo o Utilizado cuando la empresa desea distribuir
función. Por esto, es importante contar con una informes financieros u operacionales
infraestructura de BI que sea capaz de proveer estandarizados a todos aquellos involucrados o
los cinco estilos a todos los usuarios en una interesados en ella (empleados, accionistas,
organización, ofreciendo diferentes niveles de clientes, etc.). Desde los años cincuenta, las
funcionalidad personalizados a las corporaciones han encontrado rendimientos
necesidades y características de cada usuario. claros de su inversión en reportes
operacionales y financieros. Es por ello que
este es el estilo de BI más difundido,
abarcando desde los reportes de barras en
mainframe, hasta los modernos reportes en
web, o incluso para dispositivos inalámbricos.

Consideremos el siguiente escenario: El


gerente de una tienda recibe los informes de
desempeño de la misma, generados
semanalmente por un motor de distribución de
reportes. Después de una revisión al informe
semanal, advierte que las ventas por
periféricos de cómputo han caído
significativamente en comparación con las de
semanas previas. Hace clic en su informe y
llega a un mayor nivel de profundidad, donde

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 2


BUSINESS INTELLIGENCE (BI)

se muestra que sorpresivamente, los tres de los datos empresariales, incluso llegando al
mejores dispositivos han tenido malos nivel de transacción.
resultados en ventas.
El comprador en las oficinas corporativas
2. Análisis de cubos accede al análisis de cubo que le envió el
El análisis de cubos es el estilo de BI ideal para gerente de tienda, pero no puede determinar lo
el análisis básico y predefinido. Como que sucede basado únicamente en las
ejemplo, el análisis de ventas por región comparaciones predefinidas. El comprador
durante ciertos periodos de tiempo, y el necesita probar muchas más áreas de la base
análisis de ventas por producto y vendedor, de datos para determinar lo que pasa, y utiliza
podrían ser útiles para aquellos gerentes que “Análisis y consultas Ad Hoc” para lograrlo.
buscan detalles fundamentales en su
desempeño. Así que ejecuta un reporte parametrizado,
donde en base a contestar algunas preguntas,
Regresando a nuestro escenario, el gerente de define qué información quiere incluir en el
la tienda explora más a detalle el asunto, reporte. Así genera un reporte con información
ejecutando uno de los varios cubos de análisis de inventario de los productos
que han sido pre-construidos para los gerentes correspondientes, en los últimos dos meses.
de tienda. Los cubos de análisis proporcionan Nota que ha habido un flujo constante de
un ambiente sencillo y seguro que permite a embarques de las bodegas hacia las tiendas,
los usuarios principiantes de BI conducirse pero que las bodegas han dejado de ser
fácilmente para tratar de descubrir la raíz del reabastecidas, lo que ha causado un
problema en cuestión. El análisis de este agotamiento de su inventario. Concluye que el
gerente en particular, permite comparar los problema debe residir en algún punto anterior
resultados de venta de su tienda contra los en la cadena de abastecimiento. Desde el
resultados de venta en otras tiendas como la reporte de almacén, navega hacia un reporte de
suya, así como contra años anteriores. embarque que indica que todos los embarques
navales desde Taiwán han sido demorados,
Después de alternar entre varias vistas de afectando los productos en cuestión, y otros
análisis de información, muchas cosas quedan más. Es de esperarse entonces, que estos otros
evidenciadas. La primera es que la mayoría de productos también experimentarán una caída
las tiendas parecen estar experimentando esta en sus ventas. Informa al vicepresidente de
misma caída repentina en sus ventas. La ventas y a los gerentes de tienda sobre el
segunda es que esta tendencia evitará que logre resultado de su análisis, y manda la
sus metas de ventas para esta categoría de información al departamento de marketing,
producto. Y la tercera, que esta baja no es para que determinen el impacto de las demoras
consistente con sus patrones de venta de embarque en los ingresos y utilidades de la
estacionales de los últimos dos años para esta compañía para el trimestre.
clase de producto. Concluye que existe un
problema grave, pero que no es exclusivo de 4. Análisis estadístico y minería de datos Esto
su tienda, así que envía una liga de este análisis se utiliza para descubrir relaciones sutiles (ej.
de cubos a un comprador de las oficinas la elasticidad-precio), y/o generar
corporativas, de tal forma que este comprador proyecciones (ej. tendencias de ventas),
pueda ver exactamente lo mismo y profundizar apoyándose en la teoría de conjuntos,
en el asunto. tratamiento estadístico y otras funciones
matemáticas avanzadas.
3. Análisis y consultas Ad Hoc Este estilo
habilita un verdadero análisis de investigación Un analista en el departamento de marketing
construye un modelo de los ingresos y

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 3


BUSINESS INTELLIGENCE (BI)

utilidades para la línea de productos afectados, • Anteriormente, la mayoría de las


como una función de los tiempos de embarque, herramientas de BI soportaban un solo estilo.
los precios y la demanda. Después de estimar Por ejemplo, si una empresa necesitaba
el impacto financiero del retraso en los consultas Ad Hoc, y reportes empresariales,
embarques, recomienda incrementar el precio entonces requería dos herramientas diferentes.
en los artículos restantes para compensar las • La mayoría de la tecnología de BI fue
pérdidas. Recomienda también realizar un diseñada para soportar aplicaciones
nuevo gasto promocional para promover los departamentales, no aquellas que abarcaran a
productos substituto de los que están agotados toda la empresa. Por esta razón, las soluciones
debido al retraso en los embarques. de BI eran implantadas de manera aislada por
departamento, y por lo tanto cada
5. Entrega de información y alertas Un motor departamento se sentía libre de escoger el
de alertas y entrega de reportes permite a las producto que deseara.
empresas distribuir un basto número de
informes o mensajes de manera proactiva y Las empresas hoy en día necesitan una
centralizada, permitiendo a los usuarios tecnología BI que pueda soportar
suscribirse a los reportes que quieran recibir. indistintamente los diferentes estilos de BI, en
La distribución de los reportes se puede cualquier combinación, para cualquier
realizar de forma calendarizada, o disparada aplicación, y para los usuarios en toda la
por eventos, tal como podría ser que una empresa, incluyendo a los clientes y socios de
métrica cayera por debajo de un límite negocio.
preestablecido.
Por esto, debemos buscar que la arquitectura
Un grupo se encarga de monitorear para inteligencia de negocios que implantemos
continuamente el progreso de nuevos en nuestras empresas contemple los diferentes
programas de ventas, suscribiéndose a un estilos de BI, y permita que cada uno pueda
servicio de distribución de información que ser:
continuamente mide el desempeño de los • Integrado y complementado de forma
productos correspondientes, así como su transparente. Agregar un nuevo estilo de BI
rentabilidad y los costos de su promoción. El simplemente debe extender la funcionalidad
servicio también monitorea de manera de los reportes existentes.
continua los niveles de inventario en los • Expresado a través de una sola interfaz de
almacenes, avisando a todos los involucrados usuario unificada para maximizar su facilidad
cuando las demoras de embarque terminan, de uso y aceptación por los usuarios.
señalando que el precio y la promoción deben • Utilizado sobre una misma arquitectura
volver a la normalidad. integrada, donde se unifiquen los metadatos, la
seguridad, y los perfiles de usuario.
El equipo es capaz de tomar decisiones Asegurando así una sola versión de la verdad
inteligentes, responder rápidamente ante a través de toda la empresa, y minimizando los
acontecimientos cambiantes, y preservar el costos de mantenimiento y administración.
nivel excepcional de desempeño de la
compañía. * Este artículo está basado en el White Paper
“The 5 Styles of Business Intelligence:
Conclusión Industrial-Strength Business Intelligence”,
Actualmente, la mayoría de las grandes preparado por Microstrategy, Inc.
empresas tienen una amplia variedad de
soluciones de BI instaladas en algún lugar de https://sg.com.mx/content/view/411
su organización. Existen dos razones para la
proliferación sin control de estas tecnologías:

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 4


BUSINESS INTELLIGENCE (BI)

El estudio señala que casi todas las


Evolución de un Bi de Reportes a Cuadros organizaciones “mejores en su clase” (95%)
de Mando usan cuadros de mando y sólo un poco más de
la mitad del resto de las otras categorías
utilizan cuadros de mando. Si los “mejores en
Hemos encontrado un interesante artículo de su clase” son organizaciones más eficaces que
Beth Schultz, editora en jefe del portal otras, entonces se podría pensar que potenciar
AllAnalytics, en el que se hace referencia a un a una organización con cuadros de mando,
estudio realizado por Aberdeen Group que reduciendo el tiempo de toma de decisiones,
señala que aquellas empresas que desean pudiese ser una buena idea.
promover sus iniciativas de Inteligencia de
Negocios deben encontrar la manera de saltar “Los cuadros de mando que muestran un
desde reportes estáticos a cuadros de mando o puñado de las métricas más relevantes han
dashboards. mostrado en repetidas ocasiones mejorar la
visibilidad y apoyo a un mejor rendimiento”,
dice el informe. “No sólo los cuadros de
mando deberían ser una herramienta de
gestión de los altos ejecutivos, sino que
también muestran valor cuando impregnan a
toda la organización.”

Se reconoce también que la adopción de los


cuadros de mando en una organización no es
una tarea fácil. Es necesario un cambio de
mentalidad desde los reportes estáticos (un
montón de datos, muchos destinatarios) a uno
centrado en cuadros de mando (aspecto visual
rápido, conjunto de datos limitado,
destinatarios seleccionados). Pensando en
ésto, se proponen cinco pasos de alto nivel
Los reportes estáticos y otros tipos con para ayudar a dicha tarea:
capacidades de drill-down tienen sus
propósitos, pero los cuadros de mando, con su Identificar los KPIs que requieren de
punto de vista visual e intuitivo de los seguimiento por los directivos que recibirán
indicadores clave de rendimiento (KPI), los cuadros de mando. Esto varía según la
pueden realmente llegar a impulsar el BI. posición y el rol corporativo.

El estudio se construyó en base a una encuesta Desarrollar un entendimiento de los KPIs y la


realizada a 127 organizaciones en mayo de métrica. ¿Son mis métricas estándar para toda
2011 y encontró que los encuestados la industria, o de una industria a otra, o son
catalogados en la categoría “mejor en su clase” particulares de mi empresa?
usan cuadros de mando en mayores
proporciones que los que se sitúan en la Identificar el origen de datos que alimentarán
categoría “promedio de la industria” o de los a los KPIs.
“rezagados”. Como promedio se consideró
que el 20% de los encuestados están en la Diseñar, construir y desplegar los cuadros de
categoría “mejor en su clase”, y el 50% y 30% mando de gestión.
en las otras dos categorías restantes.

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 5


BUSINESS INTELLIGENCE (BI)

Recolectar, limpiar, integrar y agregar los Bibliografía


datos necesarios para poblar los KPIs y las
métricas del cuadro de mando. (WebMining Consultores, 2011)

Los tres primeros pasos son secuenciales. (Rubio, 2011)


Después de todo, no se puede determinar qué
fuentes de datos se necesitan para llenar una
métrica antes de que haya descubierto la
métrica y su definición. El área de TI y el
negocio deben colaborar para trabajar estos
pasos.

Una vez que lo anterior está hecho, se puede


hacer frente a los dos últimos puntos en
paralelo. El área de TI y el negocio deben
trabajar juntos en el paso 4, mientras que el
paso 5 se enmarca claramente en TI.

El artículo finalmente indica que, si aún no se


está convencido de dar el salto de reportes
estáticos a cuadros de mando, se debería
considerar lo siguiente: La investigación de
Aberdeen Group ha demostrado que las
organizaciones con “uso más generalizado y
más profundo de cuadros de mando” informan
un margen de beneficio operativo del 22%, en
comparación con el 13% de los que utilizan
cuadros de mando con menos frecuencia.

Aunque nosotros no creemos que el estudio de


Aberdeen Group sea definitivo, éste da una
buena dirección de lo que está pasando en el
mercado, en otras palabras, dejemos que los
números hablen…

MTRO. JOSE LUIS RODRIGUEZ RODRIGUEZ 6

También podría gustarte