Tecnologa OLAP
En un modelo de datos OLAP, la informacin es vista como cubos, los cuales consisten de
categoras descriptivas (dimensiones) y valores cuantitativos (medidas). El modelo de datos
multidimensional simplifica a los usuarios formular consultas complejas, arreglar datos en un
reporte, cambiar de datos resumidos a datos detallados y filtrar o rebanar los datos en
subconjuntos significativos.
Por ejemplo, las dimensiones tpicas de un cubo que contenga informacin de ventas incluiran:
tiempo, regin, producto, canal, organizacin y escenario (planeado o real). Las medidas
tpicas incluiran: ventas en dlares (u otra moneda), unidades vendidas, nmero de personas,
ingresos y gastos.
En los primeros das de la tecnologa OLAP, la mayora de las compaas asuma que la nica
solucin para una aplicacin OLAP era un modelo de almacenamiento no relacional. Despus,
otras compaas descubrieron que a travs del uso de estructuras de base de datos (esquemas
de estrella y de copo de nieve), ndices y el almacenamiento de agregados, se podran utilizar
sistemas de administracin de bases de datos relacionales (RDBMS) para el OLAP.
Estos vendedores llamaron a esta tecnologa OLAP relacional (ROLAP). Las primeras
compaas adoptaron entonces el trmino OLAP multidimensional (MOLAP), estos conceptos,
MOLAP y ROLAP, se explican con ms detalle en los siguientes prrafos. Las
implementaciones MOLAP normalmente se desempean mejor que la tecnologa ROLAP, pero
tienen problemas de escalabilidad. Por otro lado, las implementaciones ROLAP son ms
escalables y son frecuentemente atractivas a los clientes debido a que aprovechan las
inversiones en tecnologas de bases de datos relacionales preexistentes.
Aunque en ocasiones se utilizan indistintamente, los trminos almacn de datos y proceso
analtico en lnea (OLAP, Online Analytical Processing) se aplican a diferentes componentes de
sistemas conocidos como sistemas de ayuda a la toma de decisiones o sistemas de
inteligencia empresarial. Los componentes de estos tipos de sistemas incluyen bases de datos
y aplicaciones que proporcionan las herramientas que necesitan los analistas para tomar
decisiones en relacin con el soporte tcnico de la organizacin.
Un almacn de datos es una base de datos que contiene la informacin que, normalmente,
representa el historial empresarial de una organizacin. Estos datos histricos se utilizan para
realizar anlisis que apoyen las decisiones empresariales a diferentes niveles, desde el diseo
estratgico a la evaluacin del rendimiento de una unidad determinada de la organizacin. Los
datos contenidos en un almacn de datos se encuentran organizados para permitir el anlisis
ms que para procesar transacciones en tiempo real como ocurre en los sistemas de proceso
de transacciones en lnea (OLTP, Online Transaction Processing).
La tecnologa OLAP permite un uso ms eficaz de los almacenes de datos para el anlisis en
lnea, lo que proporciona respuestas rpidas a consultas analticas complejas e iterativas. Los
modelos de datos multidimensionales de OLAP y las tcnicas de agregados de datos organizan
y resumen grandes cantidades de datos para que puedan ser evaluados con rapidez mediante
el anlisis en lnea y las herramientas grficas. La respuesta a una consulta realizada sobre
datos histricos a menudo suele conducir a consultas posteriores en las que el analista busca
respuestas ms concretas o explora posibilidades. Los sistemas OLAP proporcionan la
velocidad y la flexibilidad necesarias para dar apoyo al analista en tiempo real.
Cabe indicar que la Tecnologa OLAP tiene como base el proceso de transacciones en lnea
(OLTP). A continuacin veremos una breve definicin del concepto OLTP y sus diferencias
marcadas con la tecnologa OLAP que desarrollaremos en el curso.
El trmino OLAP, que proviene de Online Analitical Processing (Procesamiento Analtico en
Lnea), define a una tecnologa que se basa en el anlisis multidimensional de los datos y que
le permite al usuario tener una visin ms rpida e interactiva de los mismos.
Este anlisis, tambin conocido como anlisis del hipercubo, organiza la informacin segn los
parmetros que se consulten, de manera tal que a partir de estructuras multidimensionales que
contienen los datos resumidos de Sistemas Transaccionales, conocidos como OLTP (Online
Transactional Processing) o de grandes bases, se obtendr la informacin requerida.
Es muy utilizado en el rea de marketing, ventas, informes, etc., especialmente porque las
respuestas a consultas complejas se obtienen muy rpidamente y adems porque puede
obtener los datos tanto de una fuente externa como de una base interna.
Hay diversos tipos de implementaciones de la tecnologa OLAP, las que varan segn el tipo de
motor en el que se almacenan los datos. De esta manera, podemos clasificarlas como ROLAP,
que almacena los datos en un motor relacional por lo que se puede tener un acceso veloz a
ellos; MOLAP, que almacena los datos en una base de datos multidimensional y DOLAP, que
guarda los datos en el escritorio, los que obtiene a partir de una base de datos relacional.
OLAP se puede utilizar para minera de datos o el descubrimiento de relaciones que
previamente no se discernan entre elementos de datos. Una base de datos OLAP no necesita
ser tan grande como un data warehouse, ya que no todos los datos transaccionales se
necesitan para el anlisis de tendencias. Usando Conectividad de Base de datos Abierta
(ODBC), los datos se pueden importar de bases de datos relacionales existentes para crear
una base de datos multidimensional para OLAP.
Las caractersticas de las tcnicas OLAP son:
a) Recuperacin rpida de datos, ya que la recuperacin se puede realizar en una sola entrada
y salida, los ndices son pequeos, los datos se encuentran modelados en un esquema
multidimensional.
b) El almacenamiento es muy eficiente, ya que los bloques slo contienen datos y los ndices
son simples.
c) Deben soportar requerimientos complejos de anlisis.
d) Deben analizar datos desde diferentes perspectivas.
e) Deben soportar anlisis complejos contra un volumen ingente de datos.
El objetivo de este sistema es ofrecer a los usuarios una solucin que permite agilizar de
manera notable las consultas y evaluaciones de la gran cantidad de datos que produce
constantemente una compaa, utilizando informacin proveniente de todos los sectores de la
misma, que confluye en un sistema central.
Es por ello, que la velocidad de respuesta que ofrece OLAP hace que las soluciones a los
posibles problemas surgidos durante los procesos productivos, y las posteriores decisiones
gerenciales, tengan lugar en tiempo y forma precisa.
La herramienta OLAP ha sido ampliamente utilizada durante aos en diversos sectores
empresariales, tales como el marketing, ventas, gerencia y dems, permitiendo realizar
informes de negocios confiables, que mejoran la competitividad de las organizaciones, tanto a
nivel interno como externo.
ROLAP
En una arquitectura ROLAP, el sistema accede directamente a los datos almacenados en un
DataWarehouse para proporcionar los anlisis OLAP solicitados. La premisa de estos sistemas
es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales, ms
que tenerlas directamente implementadas en la base de datos (como en entornos MOLAP). La
esencia de estos entornos es las acciones de filtrado y agregacin es equivalente a la inclusin
de una clusula WHERE" en una sentencia SQL.
El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja
los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la
funcionalidad analtica.
El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y
obtencin del dato.
El nivel de aplicacin es el motor que ejecuta las consultas multidimensionales de los
usuarios.
El motor ROLAP se integra con niveles de presentacin, a travs de los cuales los
usuarios realizan los anlisis OLAP.
Ventajas
La construccin de herramientas OLAP sobre sistemas relacionales presenta algunas ventajas
frente a los sistemas multidimensionales:
ROLAP se considera ms escalable para manejar grandes volmenes de datos,
especialmente modelos con dimensiones de gran cardinalidad (por ejemplo, con millones
de miembros).
Hay disponible una gran variedad de herramientas de carga de datos para sistemas
relacionales; adems, existe la posibilidad de ajustar el cdigo ETL (Extract, Transform,
Load) a un modelo de datos particular. Con todo esto se consigue que los tiempos de carga
sean generalmente mucho menores que con las cargas MOLAP automatizadas.
Los datos se almacenan en una base de datos relacional estndar que puede ser
accedida por cualquier herramienta de generacin de informes SQL (reporting). Estas
herramientas no tienen que ser necesariamente de tipo OLAP.
Las herramientas MOLAP tienden a sufrir un bajo rendimiento cuando consultan
elementos como descripciones textuales.
Obviando el almacenamiento de datos del modelo multidimensional, es posible modelar
datos con xito que de otro modo no se ajustaran en un modelo dimensional estricto.
Desventajas
Hay un consenso general en la industria de que las herramientas ROLAP tienen menor
rendimiento que las herramientas MOLAP.
El proceso de carga de tablas agregadas debe ser gestionado por
cdigo ETL personalizado. Las herramientas ROLAP no disponen de mecanismos
automticos para realizar esta tarea, lo que significa que se necesita ms tiempo de
desarrollo de cdigo.
Muchos desarrolladores de modelos dimensionales ROLAP ignoran el paso de crear
tablas agregadas. En este caso el rendimiento de una consulta se ve afectado porque
entonces se necesita consultar las tablas con datos ms detallados. Esto puede evitarse
parcialmente aadiendo tablas agregadas adicionales, sin embargo no es prctico crear
tablas agregadas para todas las combinaciones posibles de dimensiones/atributos.
Dado que las herramientas ROLAP se basan en SQL para todos los clculos, no son
apropiadas cuando el modelo realiza muchos cmputos que no se traducen bien en
SQL (por ejemplos: presupuestos, asignaciones, informes financieros y otros escenarios).
MOLAP
La arquitectura de sistemas MOLAP se fundamenta, para proporcionar el anlisis, en bases de
datos multidimensionales. Su principal premisa es que se trata del entorno OLAP mejor
implantado y adaptado para el almacenamiento y gestin de datos multidimensionalmente. Por
el contrario, la arquitectura y gestin de entornos ROLAP presupone que las capacidades
OLAP estn perfectamente implantadas y reflejadas sobre bases de datos relacionales.
Un sistema MOLAP usa una base de datos multidimensional, en la que la informacin se
almacena multidimensionalmente, para ser visualizada multidimensionalmente (valga la
redundancia). El sistema MOLAP utiliza una arquitectura de dos niveles: La bases de datos
multidimensionales y el motor analtico.
La base de datos multidimensional es la encargada del manejo, acceso y obtencin del
dato.
El nivel de aplicacin es el responsable de la ejecucin de los requerimientos OLAP. El
nivel de presentacin se integra con el de aplicacin y proporciona un interfaz a travs
del cual los usuarios finales visualizan los anlisis OLAP. Una arquitectura
cliente/servidor permite a varios usuarios acceder a la misma base de datos
multidimensional.
Ventajas
Consultas rpidas debido a la optimizacin del rendimiento de almacenamiento, la
indexacin multidimensional y la memoria cach.
Ocupa menor tamao en disco en comparacin con los datos almacenados en base de
datos relacional debido a tcnicas de compresin.
Automatizacin del procesamiento de los datos agregados de mayor nivel.
Muy compacto para conjuntos de datos de pocas dimensiones.
El modelo de almacenamiento en vectores/matrices proporciona una indexacin natural.
Eficaz extraccin de datos lograda gracias a la pre-estructuracin de los datos
agregados.
Desventajas
La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para
grandes volmenes de datos. Normalmente, esto se puede evitar con un procesamiento
incremental, es decir, slo el procesamiento de los datos que han cambiado (por lo
general, los nuevos datos) en lugar de volver a procesar de todo el conjunto de datos.
Las herramientas MOLAP tradicionalmente tienen dificultades para consultar con
modelos con dimensiones muy altas (del orden de millones de miembros).
Algunas herramientas MOLAP (por ejemplo, Essbase) tienen dificultades para actualizar
y consultar los modelos con ms de diez dimensiones. Este lmite vara en funcin de la
complejidad y la cardinalidad de las dimensiones de que se trate. Tambin depende de
la cantidad de hechos o medidas almacenados. Otras herramientas MOLAP (por
ejemplo, Microsoft Anlisis Services o Applix TM1) puede manejar cientos de
dimensiones.
El enfoque MOLAP introduce redundancia en los datos.