Business
Intelligence
Business Intelligence
• Se denomina inteligencia de negocios o BI
(del inglés business intelligence) al
conjunto de estrategias y herramientas
enfocadas a la administración y creación
de conocimiento mediante el análisis de
datos existentes en una organización o
empresa.
Business Intelligence
• El término inteligencia de negocios se
refiere al uso de los datos de una empresa
para facilitar la toma de decisiones a las
personas que deciden, es decir, la
comprensión del funcionamiento actual y
la anticipación de acciones para dar una
dirección bien informada a la empresa.
B.I.: recursos y herramientas
• Fuentes de datos : warehouses, data
marts.
• Querys y Reports
• Herramientas de extracción y consulta
• Herramientas de generacion de
conocimiento (Data Mining)
Data Warehouse
• El objetivo de los DWs (almacenamiento
de datos) es guardar los datos
almacenados en los diversos sistemas de
información transaccionales, con el fin de
facilitar y agilizar los procesos de toma de
decisión por diferentes niveles
gerenciales.
Variació n en el tiempo
• Los DWs son normalmente actualizados en
Batch (actualizados una o algunas veces
por día y no conteniendo los datos de las
transacciones de la empresa de manera
on-line) y pueden contener grandes
cantidades de datos.
Introducció n a los Almacenes
de Datos
Almacenes de Datos (AD) (data warehouse)
motivación
disponer de Sistemas de
Información de apoyo a la
toma de decisiones*
disponer de bases de datos que permitan extraer conocimiento de
la información histórica almacenada en la organización
objetivos
análisis de la previsiones de diseño de
organización evolución estrategias 7
* DSS: Decision Support Systems
Introducció n a los Almacenes
de Datos
Almacenes de datos
Base de Datos diseñada con un objetivo de
explotación distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional BD orientada al
(OLTP) proceso
Sistema de Almacén BD orientada al
de Datos análisis 8
(DW)
Introducció n a los Almacenes
de Datos
Almacenes de Datos
definición
colección de datos diseñada
para dar apoyo a los procesos
de toma de decisiones
característica
s
orientada hacia integrada variable en el
la información* tiempo
relevante de la
organización
9
Introducció n a los Almacenes
de Datos
AD: Orientado hacia la se diseña para consultar eficientemente
información relevante información relativa a las actividades
de la organización (ventas, compras, producción, ...) básicas
de la organización, no para soportar los
procesos que se realizan en ella (gestión
de pedidos, facturación, etc).
Base de Datos
Transaccional
PAÍS GAMA
CURSO ... ...
...
VENTA Información
...
REUNION
... PRODUCTO
Necesaria
PROTOTIPO ... 10
...
Introducció n a los Almacenes
de Datos
integra datos recogidos de
AD: Integrado diferentes sistemas operacionales
de la organización (y/o fuentes
externas).
Fuente de Fuente de
Datos 1 Datos 3 Fuente de
texto Datos 2
HTML
Base de Datos
Transaccional 1
Fuentes
Externas
Fuentes
Internas
Base de Datos
Transaccional 2
11
Almacén
de Datos
Introducció n a los Almacenes
de Datos
los datos almacenados no son
AD
actualizados, sólo son incrementados.
Carga
Bases de datos operacionales Almacén de Datos
INSERT READ
READ
UPDATE
DELETE El periodo de tiempo cubierto por un AD varía
12
entre 2 y 10 años.
Introducció n a los Almacenes
de Datos
Almacenes de Datos
ventajas para las
organizaciones
rentabilidad de las aumento de la aumento de la
inversiones competitividad productividad
realizadas para su en el mercado
creación
13
Introducció n a los Almacenes
de Datos
Almacenes de Datos
problemas
infravaloración del
esfuerzo necesario para incremento
su diseño y creación continuo de los
infravaloración de los
recursos necesarios requisitos de los
para la captura, carga usuarios
y almacenamiento de
los datos
14
Introducció n a los Almacenes
de Datos
Sistema Operacional (OLTP) Almacén de datos (DW)
- almacena datos actuales - almacena datos históricos
- almacena datos de detalle - almacena datos de detalle
y datos agregados a distintos niveles
- los datos son dinámicos (actualizables) - los datos son estáticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- - tiempo de respuesta pequeño (segundos) - tiempo de respuesta variable
(segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al análisis de datos
- orientado a los procesos de la organización - orientado a la información relevante
- soporta decisiones diarias - soporta decisiones estratégicas
- sirve a muchos usuarios (administrativos) - sirve a usuarios especificos
15
Arquitectura de un Almacén
de Datos
La Arquitectura de un AD viene determinada por su
situación central como fuente de información para
las herramientas de análisis.
Fuentes Herramientas
Internas de consultas e
informes
Base de Datos
Transaccional
Herramientas
EIS
Almacén Interfaz y
ETL Operadores
de Datos
Fuente de
Datos 1 Herramientas
texto OLAP
Fuente de
Datos 3
HTML
Copias de
Seguridad
Herramientas de
Fuente de
Datos Fuentes Minería de
16
Externas Datos
Datamarts
• Los Datamarts(DMs) son pequeños
repositorios de datos específicos para
cada área de negocios o departamentos
de las empresas. Son como DWs de
alcance limitado en un área específica de
negocio.
Data Warehouse
• Tanto los DWs como los DMs forman la
base a partir de la cual las empresas
pueden utilizar las herramientas BI
(Business Intelligence), para la extracción
de informaciones gerenciales.
Datawarehousing
Explotació n del
Datawarehouse
Report
Query,
Metadata EIS
Extracción,
clean up y
carga de
OLAP
datos
D
W
Datos Data
operacionales Mining
y externos
Componentes del DW
• Fuentes de datos
• Procedimientos de Extracción
• Procedimientos de Transformación ETL
• Procedimientos de carga (Loading)
• Soporte físico de los datos (DBMS)
• Herramientas de explotación : OLAP,
reporting, Data Mining, etc.
ETL
• Procedimientos (herramientas) destinados
a obtener los datos de las fuentes
operacionales, limpiarlos, convertirlos a
los formatos de utilización y cargarlos en
el repositorio final.
Integridad de datos
• La credibilidad del DW depende de la
integridad de sus datos
• Los datos cumplen condiciones de
integridad cuando se ajustan a todos los
estándares de valor y completitud.
• Todos los datos del DW son correctos
• El DW está completo (no existen más
datos fuera de él).
Etapas del proceso ETL
• Migración de datos
• Limpieza
• Transformación
(cálculos,agregados,sumarizaciones,desnormalización).
• Carga
• Conciliación - Validación
Migració n
• El propósito de la migración es mover los
datos de los sistemas operacionales a las
áreas de trabajo
Limpieza (Data cleaning)
• Corregir, estandarizar y completar los datos
• Identificar datos redundantes
• Identificar valores atípicos
• Identificar valores perdidos
Limpieza (actividades)
• Se debe uniformar las tablas de códigos de
los sistemas operacionales y simplificar
esquemas de codificación
• Datos complejos, que representan varios
atributos a la vez, deben ser divididos para
que no se consideren ambiguos.
Transformació n
• Son procesos destinados a adaptar los datos
al modelo lógico del DW.
• Se generan “reglas de transformación”.
• Las reglas deben validarse con los usuarios
del DW.
Carga (Loading)
• Dos aproximaciones:
• Full Refresh
• Incremental
• Aunque el Full Refresh parece más sólido
desde el punto de vista de la integridad de
los datos, a medida que crece el DW se
vuelve cada vez más difícil de realizar.
Herramientas ETL
• Pueden ser procesos manuales diseñados a
medida (querys SQL, programas en Visual
Basic, etc).
• Existen herramientas que proporcionan
interfaces visuales para definir joins,
transformaciones, agregados, etc. sobre las
plataformas mas comunes.
Algunas Herramientas ETL
• Microsoft Integration Services (MS SQL Server
2005)
• MySQL Migration Toolkit
• Scriptella ETL - Libre, Apache-licensed ETL
• Oracle Warehouse Builder
• Data Integrator (herramienta de Business
Objects)
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una
visión multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de análisis.
El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema físico) del almacén de datos.
La herramienta OLAP genera la correspondiente
consulta y la envía al gestor de consultas del 32
sistema ([Link]. mediante una sentencia SELECT).
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente
en la obtención de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por
condiciones impuestas sobre las dimensiones
medida hecho
¿ “Importe total de las ventas durante este año de los productos
del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto y por trimestre 33
Herramientas OLAP
Tiempo
Marca “Bebidas”
Producto
Día de la
Categoría semana
Mes
Departamento
Nro_producto Día Año Trimestre
as
Tipo
nt
Ve
importe “2007”
unidades
Almacén
Ciudad
Almacén
“Importe total de ventas en el Tipo
año 2007, del departamento Región
de “Bebidas”, por categoría y 34
trimestre”
Herramientas OLAP
trimestre categoría importe
M E
O R
F
IN
35
Herramientas OLAP
Categoría Trimestre Ventas
Presentación tabular
(relacional) de los
Refrescos T1 2000000
datos seleccionados
Refrescos T2 1000000
Refrescos T3 3000000
Refrescos T4 2000000
Zumos T1 1000000
Zumos T2 1500000
Se asumen dos categorías en
Zumos T3 8000000
el departamento de Bebidas:
36
Refrescos y Zumos.
Zumos T4 2400000
Herramientas OLAP
trimestre Presentación matricial
T1 T2 T3 T4 (multidimensional) de los
categoría
datos seleccionados
Refresco 2000000 1000000 3000000 2000000
s
Zumos 1000000 1500000 8000000 2400000
Los parámetros de la consulta (“por trimestre” y “por categoría”)
determinan los criterios de agrupación de los datos seleccionados
(ventas de productos del departamento Bebidas durante este año).
La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).
37
Herramientas OLAP
• Lo interesante no es poder realizar consultas que, en
cierto modo, se pueden hacer con selecciones,
proyecciones, concatenaciones y agrupamientos
tradicionales.
• Lo realmente interesante de las herramientas OLAP
son sus operadores de refinamiento o manipulación
de consultas.
• DRILL
• ROLL
• SLICE & DICE 38
• PIVOT
Herramientas OLAP
El carácter agregado de las consultas en el Análisis
de Datos, aconseja la definición de nuevos
operadores que faciliten la agregación (consolidación)
y la disgregación (división) de los datos:
agregación (roll): permite eliminar un criterio de
agrupación en el análisis, agregando los grupos
actuales.
disgregación (drill): permite introducir un nuevo
criterio de agrupación en el análisis, disgregando
los grupos actuales.
39
Herramientas OLAP
Si se desea introducir la dimensión Almacén en el análisis
anterior e incluir un nuevo criterio de agrupación sobre la
ciudad del almacén:
¿ “Importe total de las ventas durante este año de los
productos del departamento Bebidas, por trimestre, por
categorías y por ciudad del almacén” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto, por trimestre y por
ciudad del almacén. 40
Herramientas OLAP
Tiempo
“Bebidas” i t a e
Marca
s Díardemla
Producto
c e o
Categoría
n e infsemana
n o vo Mes
Departamento
r i o ue Día Año
Nro_producto
u a en Trimestre
as
Tipo
u s st
nt
el ar eimporte
Ve
e ñ “2007”
di s unidades
Almacén
Ciudad
Almacén
“Importe total de ventas en Tipo
este año, del departamento Región
de “Bebidas”, por categoría, 41
trimestre y ciudad”
Herramientas OLAP
trimestre categoría importe
O SS ) ¡ la operación de DRILL
ACR udad se realiza sobre el
I L L (Ci
DR acén informe original !
Alm
lla do
e ta
a sd
e m 42
for m
In
Herramientas OLAP
Categoría Trimestre Ventas Categoría Trimestre Ciudad Ventas
Refrescos T1 Valencia 1000000
Refrescos T1 2000000
León 1000000
Refrescos T1
Refrescos T2 1000000 Refrescos T2 Valencia 400000
drill-across
Refrescos T2 León 700000
Refrescos T3 3000000
Refrescos T4 2000000
Cada grupo (categoría-trimestre) de la
Zumos T1 1000000 consulta original se disgrega en dos
nuevos grupos (categoría-trimestre-
Zumos T2 1500000 ciudad) para las ciudades de León y
Valencia.
Zumos T3 8000000
43
Zumos T4 2400000
* Se asumen dos ciudades: Concepción y
Valdivia.
Herramientas OLAP
div ia
V al
pc ion
ce
con
Zumos
300000 500000 200000 2000000
Refrescos
1000000 400000 100000 500000
Presentación matricial de
T1 T2 T3 T4 los datos seleccionados. 44
Herramientas OLAP
Si se desea eliminar el criterio de agrupación sobre la
dimensión Tiempo en la consulta original:
¿ “Importe total de las ventas durante este año de los
productos del departamento Bebidas, por categorías” ?
45
Herramientas OLAP
Tiempo
“Bebidas” i t a e
Marca
s Díardemla
Producto
c e o
Categoría
n e infsemana
n o vo Mes
Departamento
r i o ue Día Año
Nro_producto
u a en Trimestre
as
Tipo
u s st
nt
el ar eimporte
Ve
e ñ “2007”
di s unidades
Almacén
Ciudad
Almacén
“Importe total de ventas en Tipo
este año, del departamento Región
de “Bebidas”, por categorías” 46
Herramientas OLAP
trimestre categoría importe
O SS ) ¡ la operación de ROLL
ACR estre se realiza sobre el
O LL (Trim informe original !
R po
m
Tie
ado
greg
asa
m 47
or me
I nf
Herramientas OLAP
Categoría Trimestre Ventas
Refrescos T1 2000000
Refrescos T2 1000000
Refrescos Categoría Ventas
T3 3000000
roll-across
Refrescos 8000000
Refrescos T4 2000000
Zumos 12900000
Zumos T1 1000000
Zumos T2 1500000
Zumos T3 8000000
48
Zumos T4 2400000
Herramientas OLAP
Las operaciones de agregación (DRILL) y disgregación (ROLL)
se pueden hacer sobre:
atributos de una dimensión sobre los que se ha definido
una jerarquía: DRILL-DOWN, ROLL-UP
departamento – categoría - producto (Producto)
año - trimestre – mes - día (Tiempo)
sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto – Almacén -Tiempo
49
Herramientas OLAP
trimestre categoría importe
¡ la operación de DRILL
O WN )
D es se realiza sobre el
I L L ( m informe original !
DR mpo
Tie
s en
n ta ento y
e ve tam oría
t al d epar ateg
e to el d or c
t
p or o, d s”, p
ñ 50
“Im te a bida
es “Be
de s”
me
Herramientas OLAP
Categoría Trimestre Ventas Categoría Trimestre Mes Ventas
Refrescos T1 Enero 1000000
Refrescos T1 2000000
Refrescos Febrero 500000
T1
drill-down
Refrescos T2 1000000 Refrescos T1 Marzo 500000
Refrescos T3 3000000
Refrescos T4 2000000
Cada grupo (categoría-trimestre) de la
Zumos T1 1000000
consulta original se disgrega en dos
nuevos grupos (categoría-trimestre-mes).
Zumos T2 1500000
Zumos T3 8000000 51
Zumos T4 2400000