DATA WAREHOUSE
Hoy en día cada vez se oye más hablar del Data Warehouse o Ware House.
Vamos hacer un recorrido por todo lo que significa e implica este término y
cómo se lleva a cabo.
Puede parecer muy complicado, pero vamos a tratar de explicarlo de forma
sencilla para que todo el mundo lo pueda entender.
Aprendérás términos como data mining, OLAP, ETL, etc
Índice de Contenidos:
- ¿Qué es Fata WareHouse?
- ¿Para Qué Sirve Data Ware House?
- Ejemplos Data WareHouse
- Procesos de Analisis y Software en DataWareHouse
- Data Ware House ETL
- OLAP Data Ware House
- Data Mining
- Diferencia entre OLAP y DataMining
¿Qué es Data WareHouse?
Viene del Inglés Data = datos y WareHouse = almacén, por eso, una
data warehouse es un almacén de datos.
Esta palabra se utiliza para hablar de un almacén de datos diseñado
para permitir las actividades de inteligencia de un negocio.
En definitiva sirve para ayudar analizar los datos recopilados por la empresa
con el fin de mejorar su rendimiento.
Un Data Warehouse o Almacén de Datos, es una gran base de datos,
normalmente medida en gigabytes (miles de millones de caracteres) o
terabytes (billones de letras), que recoge información de múltiples fuentes,
y que su actividad se centra en la Toma de decisiones, es decir, en el
análisis de la información, en vez de su captura.
Todo el mundo sabe hoy en día que la información es un potente activo del
que se pueden obtener importantes beneficios y ventajas competitivas para
cualquier organización.
De hecho las empresas valoran los datos como un activo más de la
empresa.
Estos datos pueden darnos información acerca de clientes, competidores,
etc.
De ahí nacen las Datas Warehouses.
Los datos pueden provenir de los sistemas desarrollados internamente por
la empresa, de las aplicaciones compradas, o de los datos comprados a
otras empresas o fuentes de datos.
Estos datos ayudan a los analistas para tomar decisiones en una
organización.
Es importante que la empresa cuente con un único DataWarehouse.
Así, los miembros de la organización podrán acceder a una misma fuente de
información organizada según convenciones determinadas por el
management.
El término "Data WareHouse" fue acuñado por primera vez por Bill Inmon
en 1990.
De acuerdo con Inmon, una data warehouse es un conjunto de datos
estructurados orientados por temas, integrados, variables con el
tiempo, y no volátiles empleados para tomar decisiones.
Desglosemos la definición:
- Orientados por temas: Colección de información relacionada organizada
alrededor de un tema central.
Cuando se habla de datawarehouse se hace referencia a un sistema que
esta organizado en base a temas o asignaturas especiales, que permite
entonces que los datos y la información de mismo tipo quede siempre
conectada.
Ejemplos de temas pueden ser clientes, productos, campañas, etc.
- Integrados: los datos se obtienen de fuentes diferentes, por ejemplo de
los diferentes departamentos de una organización, pero se deben aplicar
técnicas de integración (agrupación) de los datos.
Los datos se organizan por temas para facilitar su acceso y entendimiento
por parte de los usuarios finales.
Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una
única tabla del datawarehouse.
De esta forma, las peticiones de información sobre clientes serán más
fáciles de responder dado que toda la información reside en el mismo lugar.
- No volátiles: quiere decir que los datos no van a cambiar con el tiempo
una vez que se encuentran en el almacén.
El almacén de información de un datawarehouse existe para ser leído, pero
no modificado.
La información ni se modifica ni se elimina.
- Variables con el Tiempo: Los cambios producidos en los datos a lo largo
del tiempo quedan registrados para que los informes que se puedan generar
reflejen esas variaciones.
Otras formas que podemos encontrar de llamar a las data warehouse
pueden ser: dw, data wharehouse, data warhouse o simplemente
almacén de datos.
Data Warehousing, es el proceso que facilita la creación y explotación de
un Data Warehouse.
Además de una base de datos, en una data warehouse, se incluyen
herramientas de extracción, transporte, transformación y carga de los datos
(ETL), un procesamiento analítico en línea (OLAP) para analizarlos,
herramientas de análisis de clientes, y otras aplicaciones que gestionan el
proceso de recopilación de datos y la entrega a los usuarios como el data
mining.
Luego veremos algunas de estas aplicaciones.
¿Para Qué Sirve Data WareHouse?
- Para tener un mayor conocimiento del negocio
- Para tomar mejores decisiones y en un tiempo menor.
- Para mejorar y ser más efectivos.
- Para no perder distancia con la competencia.
- En definitiva para aumentar los ingresos.
Las data warehouse son la base para los sistemas de gestión de relaciones
con los clientes, ya que pueden ser utilizados para la consolidación de los
datos del cliente y la identificación de áreas de satisfacción y/o frustración
del cliente.
También se utilizan para la detección de fraudes, análisis de
reposicionamiento de producto, el descubrimiento de centros de beneficio y
gestión de activos corporativos.
Ejemplos Data WareHouse
Veamos más casos concretos con ejemplos:
Para los minoristas, un almacén de datos o data warehouse puede ayudar a
identificar las características demográficas de los clientes, identificar los
patrones de compra y mejorar las respuestas de correo directo.
Para los bancos, puede ayudar en la detección de fraude de tarjetas de
crédito, ayudar a identificar a los clientes más rentables, y poner de relieve
los clientes más fieles.
Las empresas de telecomunicaciones la utilizan para predecir qué clientes
tienen más probabilidades de cambiar de compañía y luego aplicarles
incentivos especiales para quedarse.
Las compañías de seguros la utilizan para el análisis de las reclamaciones
para ver qué procedimientos se reivindican y para identificar patrones de los
clientes de riesgo.
Los fabricantes pueden utilizarla para comparar los costos de cada una de
sus líneas de productos en los últimos años, a determinar qué factores
producen incrementos y ver qué efecto tuvieron estos aumentos en los
márgenes globales.
Procesos de Analisis en Date WareHouse
Ahora vamos hacer un breve recorrido por esas otras herramientas que
toda data warehouse debe tener.
La mayoría de los data warehouse tiene la siguiente arquitectura:
Expliquemos los pasos ETL y de análisis.
Data Ware House ETL
El proceso de extracción de datos de los sistemas de origen y ponerla en la
data warehouse se denomina comúnmente ETL.
ETL (Extract, Transform and Load) es un proceso responsable de la
extracción de datos de los sistemas de origen y de colocarlo en un
almacén de datos o data warehouse.
ETL implica las siguientes tareas:
Extracción de datos: Es lo primero que hace una herramienta ETL.
Se trata de obtener la información de las distintas fuentes de origen, tanto
internas como externas.
Durante la extracción, se identifica los datos deseados y se extrae de
muchas fuentes diferentes, incluyendo los sistemas de bases de datos y
aplicaciones.
Después de la extracción de datos, tienen que ser transportados físicamente
al sistema de destino o a un sistema intermedio para su posterior
procesamiento y/o transformación.
Transformación: es el filtrado, limpieza, depuración, homogeneización y
agrupación de la información.
Incluye la agrupación de los datos de las diferentes fuentes.
La transformación se produce mediante el uso de reglas o tablas de
consulta o mediante la combinación de los datos con otros datos.
Carga: es el proceso de escribir los datos en la date warehouse.
La fase de carga es el momento en el cual los datos de la fase anterior
(transformación) son cargados en el sistema de destino.
Diseñar y mantener el proceso de ETL es a menudo considerada como
una de las partes más difíciles y que requieren más recursos de un
proyecto de data warehouse.
La mayoría de los programas de data warehouse utilizan herramientas ETL
para gestionar este proceso.
El software ETL extrae datos, transforma los valores de los datos
inconsistentes, limpia los datos "malos", filtra los datos y carga los
datos en una data warehouse de destino.
Algunas de estas herramientas más utilizadas son:
-Oracle Warehouse Builder
-IBM Websphere DataStage
- Microsoft SQL Server Integration Services (SSIS)
Ya tenemos los datos correctamente, Ahora es el momento de analizarlos.
OLAP Data Ware House
OLAP = On-Line Analytical Processing = Procesamiento analítico en
línea.
Es el método más utilizado para analizar y evaluar los datos de la data
warehouse en línea.
Permite a los gerentes y analistas obtener una idea de la información .
Para analizar los datos se utilizan un conjunto de operaciones.
Estas operaciones se realizan mucho más fácilmente con software o
programas OLAP, que suelen incluir los programas data warehouse.
Para los programas OLAP un tiempo de respuesta es una medida de su
eficacia.
OLAP permite al usuario extraer y ver con facilidad y de forma
selectiva los datos desde diferentes puntos de vista.
Un ejemplo, un usuario puede solicitar que se analizaron los datos para
mostrar una hoja de cálculo que muestra todos los productos una pelota de
playa de una empresa que se venden en Madrid en el mes de julio,
comparar las cifras de ingresos con los de los mismos productos en
septiembre y luego ver una comparación de otras ventas de productos en
Madrid en el mismo período de tiempo.
Data Mining
Data Mining significa "minería del datos".
En general, el datamining (a veces descubrimiento de conocimiento) es el
proceso de analizar los datos desde diferentes perspectivas y
resumirlos en información útil; información que puede ser utilizada para
aumentar los ingresos, reducir los costes, o ambos.
El data mining descubre patrones ocultos en los datos.
Técnicamente, el datamining es el proceso de encontrar correlaciones entre
los patrones o de los campos en grandes bases de datos como en los de una
data warehouse.
Un ejemplo, una cadena de supermercados utiliza la capacidad de
extracción de datos de Oracle software para analizar los patrones de
compra locales.
Descubrieron que cuando los hombres compran pañales los jueves y los
sábados, también tendían a comprar cerveza.
Un análisis más detallado mostró que estos compradores normalmente
hicieron su compra semanal los sábados.
Los jueves, sin embargo, sólo han comprado algunos artículos. El minorista
llegó a la conclusión de que debería comprar cerveza para tenerla disponible
para el próximo fin de semana.
La cadena de supermercados podría utilizar esta información recientemente
descubierta de diversas maneras para aumentar los ingresos.
Por ejemplo, podrían mover la estantería de la cerveza más cerca de la de
los pañales y los jueves no harían ninguna oferta para pañales y cerveza.
Si quieres saber mucho más sobre el datamining visita el siguiente
enlace: DataMining.
Diferencia entre OLAP y DataMining
OLAP y Data Mining se utilizan para resolver diferentes tipos de problemas
analíticos.
Con OLAP se resumen los datos y se hacen pronósticos.
Por ejemplo, responde a cuestiones operativas como "¿Cuál es el promedio
de ventas de automóviles, por región y por año?".
Data Mining descubre patrones ocultos en los datos y opera a un nivel
detallado en lugar de un nivel de resumen.
Por ejemplo, en una industria de las telecomunicaciones, donde la pérdida
de clientes es un factor clave, la minería de datos podría responder a
preguntas como:
"¿Quién es probable que cambie los proveedores de servicios y cuáles son
las razones para que cambien?"