ficha tecnica de la empresa
estrategia de negocio ABP
datamart * data warehouse
analisis de sensibilidad de costos y gastos de una empresa
(cubo de datos)
lenguaje mdx
BI
recursividad ,relacion entre tablas ,crear tablas, extraccion
,transformacion y carga
fact table dimension diferencia
Diferencia entre la tabla de dimensiones y la tabla de
hechos
Parámetros Tabla de hechos Tabla de dimensiones
La tabla complementaria de la tabla
Mediciones, métricas o
de hechos contiene atributos
Definición hechos sobre un proceso
descriptivos que se usarán como
comercial.
restricción de consulta.
Situado en el centro de un
Conectado a la tabla de hechos y
esquema de estrella o copo
Característica ubicado en los bordes del esquema de
de nieve y rodeado de
estrella o copo de nieve
dimensiones.
Definido por su grano o su Debe ser prolijo, descriptivo,
Diseño
nivel más atómico. completo y de calidad garantizada.
La tabla de hechos es un
evento medible para el cual
se recopilan los datos de la Recopilación de información de
Tarea
tabla de dimensiones y se usa referencia sobre un negocio.
para el análisis y la
generación de informes.
La tabla de dimensiones Evert
Las tablas de hechos pueden
contiene atributos que describen los
contener información como
detalles de la dimensión. Por ejemplo,
Tipo de datos las ventas contra un conjunto
las dimensiones del producto pueden
de dimensiones como
contener identificación del producto,
Producto y Fecha.
categoría del producto, etc.
De hecho, la clave principal
Llave se asigna como claves Clave externa a la tabla de hechos
externas a las dimensiones.
Ayuda a almacenar etiquetas
de informe y filtros de Cargue datos atómicos detallados en
Almacenamiento
valores de dominio en tablas estructuras dimensionales.
de dimensiones.
Contiene jerarquías Por ejemplo,
Jerarquía No contiene la jerarquía Location podría contener, país, código
PIN, estado, ciudad, etc.
-datos planos , excel. base de datos transaccionales.
-herramientas.
-data warehouse contiene toda la informacion mas valiosa de la
empresa, esta construido de tal manera
que el acceso sea lo mas rapido posible.
-datamart es un warehouse mas pequeño ,esta orientado a la
informacion de cada departamento de la empresa,
su implementacion en tiempo es corta y su costo es menor.
concepto data warehouse
Un desarrollador de Data Warehousing debe focalizarse en
entregar un análisis multidimensional y capacidades de reportes
ad-hoc (generación de reportes por parte del usuario experto
basados en el conocimiento del negocio)
Para realizar esto, el
diseñador necesita conocer los requerimientos del negocio tan
bien como las técnicas de diseño multidimensional.
El Data Warehousing es parte integral de lo que algunos autores
definen como la “Era de la Información” ya que posibilita la
construcción y mantenimiento de estructuras destinadas al
análisis
de los datos, transformando los datos en información y la
información en conocimiento.
************************************VISION DE BILL
INMON*****************************************
traer toda la data del negocio (OLTP), se normaliza, crea
repositorio llamado data warehouse y crea
los datamart.///esto se llama CIF (corporate information
factory) esto es la data centralizada del negocio.
propone las siguientes caracteristicas::
-variante en el tiempo:el data ware house no es estatico, tiene
que actualizarse.
eso lo define el experto en desarrollo
-orientado a temas: una estructura logica.
-integrado: La base de datos contiene los datos de todos los
sistemas operacionales de la organización,
y dichos datos deben ser consistentes
-no volatil: La información no se modifica ni se elimina, una
vez almacenado un dato,
éste se convierte en información de sólo lectura, y se mantiene
para futuras consultas.
(no se puede modificar).
ETL: (extraer, transformar y cargar) es el proceso que permite a
las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base
de datos, data mart, o data warehouse para analizar.
******************************************VISION DE RAPLH
KIMBALL*********************************
recomienda ir por soluciones mas pequeñas porque la suma de esas
soluciones le va a dar el todo.
es mas barato y menos tiempo (empieza creando datamart de cada
departamento del negocio)
Por un lado tenemos tablas para las representar las dimensiones
y por otro lado tablas para los hechos (las facts
tables).
////////////////////////////////////
/dimension :es una tabla estatica /
/ /
/fact table: es una tabla estoica /
////////////////////////////////////
• Los diferentes Data Marts están conectados entre sí por la
llamada bus structure, que contiene los elementos
anteriormente citados a través de las dimensiones
conformadas.
*********BUS STRUCTURE :es la representacion de la conexion
entre los diferentes datamart de los negocios.*******
• Una dimensión conformada puede ser, por ejemplo, la
dimensión cliente, que incluye todos los atributos o elementos
de análisis referentes a los clientes y que puede ser compartida
por diferentes Data Marts (ventas, pedidos, gestión de cobros,
etc).
• Este enfoque también se conoce como Bottom-up, pues al final
el Datawarehouse Corporativo no es más que la unión de los
diferentes Datamarts, que están estructurados de una forma
común a través de la bus structure. Esta característica le hace
más flexible y sencillo de implementar, pues podemos construir
un Data Mart como primer elemento del sistema de análisis, y
luego ir añadiendo otros que comparten las dimensiones ya
definidas.
//data warehousing//
en bi hay 2 caminos
primer camino, es llevar la data a una db temporal fuera de la
db de produccion y a eso lo llamamo stage.
2do camino, traer la data y subir de frente a la db
multidimensional.
bulk insert Importa un archivo de datos en una tabla de base de datos con un formato
especificado por el usuario en SQL Server.
//SQL SERVER (SQLEXPRESS) el servicio no esta encendido, puede
estar apagado.//
precedente:son acciones q debemos insertar antes q se dispare el
proceso de carga, y sirve para limpiar las tablas que yo
deseo subir o cargar en mi modelo
ETL: consiste en poblar los datamart. (informacion de sistemas transaccionales)
extraccion y carga: donde esta el modelo de bd (oracle, mysql,etc)
transformacion: no altera datos.
Procesos para implementar ETL
EL gestor de Base de Datos SQL Server ofrece múltiples opciones para la implementación de
los procesos ETL:
• – Transact – SQL
• – Consultas distribuidas
• – El utilitario BCP(copy program utility) y la sentencia Bulk Insert
• – SQL Server Integration Services (SSIS)
1)Agregaciones: Es el equivalente lógico de tablas de resumen. Las agregaciones son
resúmenes de datos pre calculados que mejoran el tiempo de respuesta por el simple
hecho de tener preparadas las respuestas antes de que se planteen las consultas.
2) Atributo: Un atributo es un concepto del negocio, que proporciona el contexto en que los
datos tienen relevancia. Dan respuesta a las preguntas “donde”, “quien” y “cuando”. Se
muestran como encabezados de filas o columnas.
3) B Tree Index : También llamado Índice de árbol, es una estructura ordenada de datos,
organizada como árbol de cabeza. Estos índices son los que más se utilizan, están
organizados en una estructura de árbol B y por lo general se utilizan para las llaves
primarias de manera que se pueda hacer una búsqueda por llave más rápido.
4) Bitmap Index: Índice que utiliza un conjunto de bits (1 y 0) para representar la existencia
de un valor o una condición. Los índices de bitmap son muy recomendables en columnas
en las cuales los valores ser repiten y representan una división en categorías, por ejemplo
columnas como género, estado civil, etc. También son muy recomendables cuando no
cambian mucho, aunque sean muy variantes.
5) Bracketed Dimension. Sirve para Mejorar el rendimiento y la capacidad de análisis.
Creando grupos de valores de atributos con muchos valores únicos.
6) Balanced scorecard.
7) Big data.
8) Data Cleansing: El proceso de data cleansing permite identificar datos incompletos,
incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos
datos sucios. Con data cleansing se realiza una implementación de una metodología
confiable de calidad de datos que soluciona desde problemas técnicos a esquemas
complejos de negocios. Se implementan soluciones de Normalización, De duplicación y
Enriquecimiento de datos.
9) Constellation Model : Es una técnica asociada con el modelamiento de los datos en un
data warehouse. El modelo constellation permite el intercambio de varias tablas de hecho
con tablas de otras dimensiones, es también llamado Galaxy schema.
10) Dash board. También conocidos como Business Intelligence Dashboards, o Dashboards
Ejecutivos, Son resúmenes visuales de información del negocio, que muestran de una
mirada la comprensión del global de las condiciones del negocio mediante métricas
e Indicadores Clave de Desempeño (KPIs). Esta es una Herramienta de Inteligencia de
Negocios muy popular desde hace unos pocos años.
11) Hipercubo: También llamado cubo OLAP, OnLine Analytical Processing o procesamiento
Analítico en Línea, término acuñado por Edgar Frank Codd de EF Codd & Associates,
encargado por Arbor Software (en la actualidad Hyperion Solutions), es una base de datos
multidimensional, en la cual el almacenamiento físico de los datos se realiza en un vector
multidimensional. Los cubos OLAP se pueden considerar como una ampliación de las dos
dimensiones de una hoja de cálculo.
Los hipercubos OLAP son estructuras que representan los datos como una matriz en la cual
sus ejes corresponden a los criterios de análisis y en los cruces se encuentran los valores a
analizar. Estos cubos constan de dimensiones y medidas. Las dimensiones están
relacionadas con los criterios de análisis de los datos, son variables independientes,
representan los ejes del cubo y están organizadas en jerarquías. Las medidas son los
valores o indicadores a analizar, se corresponden a datos asociados a relaciones entre los
objetos del problema, son variables dependientes y se encuentran en la intersección de las
dimensiones.
Existe la posibilidad de moverse dentro de las jerarquías de las dimensiones y observar de
esta forma diferentes visiones de las medidas. Se puede seleccionar alguna de las
dimensiones que se pretende analizar para realizar operaciones de agregación o
desagregación, así como también dejar valores sobre algunas de estas dimensiones.
12) Datamining : (minería de datos) es el proceso de extracción de información significativa
de grandes bases de datos, información que revela inteligencia del negocio, a través de
factores ocultos, tendencias y correlaciones para permitir al usuario realizar predicciones
que resuelven problemas del negocio proporcionando una ventaja competitiva. Las
herramientas de Data Mining predicen las nuevas perspectivas y pronostican la situación
futura de la empresa, esto ayuda a los mismos a tomar decisiones de negocios
proactivamente.
13) DSS: Un Sistema de Soporte a la Decisión (DSS) es una herramienta de Business
Intelligence enfocada al análisis de los datos de una organización. En principio, puede
parecer que el análisis de datos es un proceso sencillo, y fácil de conseguir mediante una
aplicación hecha a medida o un ERP sofisticado. Sin embargo, no es así: estas aplicaciones
suelen disponer de una serie de informes predefinidos en los que presentan la
información de manera estática, pero no permiten profundizar en los datos, navegar entre
ellos, manejarlos desde distintas perspectivas... etc. El DSS es una de las herramientas más
emblemáticas del Business Intelligence ya que, entre otras propiedades, permiten resolver
gran parte de las limitaciones de los programas de gestión.
14) Derived Column : Una columna derivada no es más que una nueva columna que añadimos
a nuestro Flujo de trabajo y que podremos generar con un valor predefino o en base a un
determinado cálculo con los valores de entrada. El Derived Column crea nuevos valores de
columna aplicando expresiones a las columnas de entrada de la transformación. Una
expresión puede contener cualquier combinación de variables, funciones, operadores y
columnas de la entrada de transformación. El resultado puede agregarse como una nueva
columna o insertarse en una columna existente como un valor de reemplazo. La
transformación Columna derivada puede definir varias columnas derivadas, y cualquier
variable o columna de entrada puede aparecer en varias expresiones.
15) Dimension: Una dimensión es una estructura que clasifica los hechos y medidas con el fin
de permitir a los usuarios responder a las preguntas de negocio, dimensiones
comúnmente utilizados son las personas, los productos, el lugar y el tiempo.
16) Drill Across: Es muy similar al funcionamiento de Drill-down, con la diferencia de que Drill-
across no se realiza sobre jerarquías de una dimensión, sino que agrega como nuevo
criterio de análisis una nueva dimensión.
17) Drill Down / Up: Se realizan movimientos en la jerarquía de una dimensión agregando y
desagregando respectivamente la misma. Estas operaciones pueden verse como ajustes
en las escalas de los ejes.
18) ETL: Extracción-Transformación-Carga (ETL) su objetivo consiste en mantener cargado el
DW con los datos correspondientes. La estructura general de estos procesos consiste en
operaciones de manipulación de datos que se realizan en un cierto orden comunicando
entradas y salidas. El DW se carga inicialmente y luego se mantiene actualizado
normalmente involucra volúmenes de datos mucho mayores a los habituales en
operaciones OLTP.
Los procesos ETL básicos son:
Extracción: Ésta es la primera etapa y corresponde a la obtención de los datos que luego
serán manipulados para ser cargados en el DW.
Transformación: Una vez que la información es extraída hacia el área de datos temporales
hay distintos pasos de transformación, como la limpieza de la información o selección de
los campos necesarios para la carga del DW, también se pueden combinar distintas
fuentes de datos y realizar otras operaciones.
Carga: Al final del proceso de transformación, los datos están en forma para ser cargados
dentro del DW. En ésta y en las anteriores etapas se pueden generar distintos tipos de
logs.
19) Fact Table : tabla de hechos (o tabla fact) es la tabla central de un esquema dimensional
(en estrella o en copo de nieve) y contiene los valores de las medidas de negocio o dicho
de otra forma los indicadores de negocio. Cada medida se toma mediante la intersección
de las dimensiones que la definen, dichas dimensiones estarán reflejadas en sus
correspondientes tablas de dimensiones que rodearán la tabla de hechos y estarán
relacionadas con ella.
20) Factless : Son tablas que no tienen medidas y representan la ocurrencia de un evento
determinado. Por ejemplo, la asistencia a un curso puede ser una tabla de hechos sin
metricas asociadas.
21) Holap : HOLAP (Hybrid Online Analytical Process, procesamiento analítico en línea híbrido)
es una combinación de ROLAP y MOLAP, que son otras posibles implementaciones de
OLAP. HOLAP permite almacenar una parte de los datos como en un sistema MOLAP y el
resto como en uno ROLAP. El grado de control que el operador de la aplicación tiene sobre
este particionamiento varía de unos productos a otros.