Data-Mart 1
Data-Mart 1
INDICE
1. TITULO 2. INTRODUCCION 3. OBJETIVO GENERAL 4. OBJETIVO ESPECIFICO 5. DESARROLLO DEL TEMA DE INVESTIGACION
5.1 DATA MART 5.1.1 HISTORIA 5.1.2 DEFINICIONES 5.1.3 TIPOS DE DATAMART 5.1.4 CARACTERISTICAS 5.1.5 VENTAJAS Y DESVENTAJAS 5.1.6 ARQUITECTURA ROLAP, MOLAP, HOLAP 5.1.7 COMPONENTES EN LA CREACION DE UN DATAMART 5.1.8 FACES DE CONSTRUCCION 5.1.9 PASOS PARA IMPLEMENTAR UN DATAMART
1. TITULO:
DATA MART Y SUS APLICACIONES A LA INGENIERIA CIVIL
2. INTRODUCCION
Actualmente, en cualquier entidad que procese informacin y que cuente con una base de datos, sabemos que es necesario que esta se actualice constantemente, y el propsito de ella es proveer informacin a la empresa con un adecuado manejo como transformaciones, bsqueda de patrones y consolidaciones. Es as como nace el trmino repositorio de datos o mercado de datos, que en el mbito de ingeniera de sistemas es conocido como Data Mart.. La existencia de los Data Marts crea nuevas formas de pensar cuando se disean repositorios corporativos de datos. Algunas de ellas reemplazan definitivamente el concepto de DataWarehouse, por varios Data Marts que se van alimentar de los sistemas operacionales. Otras utilizan los Data Marts como complemento de los DataWarehouse, quiere decir que de estos mueven la informacin hacia varios Data Marts con el fin de permitir un anlisis ms eficiente. Y solo personal autorizado debe trabajar con las bases de datos y acceso a los Data Marts . En la mayora de las empresas del Per y del mundo se puede apreciar que muchas ya cuentan de una u otra manera con diferentes Data Marts, los cuales ayudan a la empresa a tomar decisiones, por que las empresas de hoy necesitan constantemente de consumir informacin para poder sobrevivir. Sin embargo muchos de estos Data Marts fueron creados enfocados en los datos y no en las necesidades de informacin de los usuarios.
3. OBJETIVO GENERAL
El presente trabajo tiene como objetivo brindar informacin y plantear las bases tericas para el desarrollo del DataMart y explicar de manera detallada dos aplicaciones dentro de la carrera de Ingeniera Civil.
4. OBJETIVOS ESPECIFICOS
Brindar las definiciones y conceptos bsicos sobre Data Mart. Mencionar las caractersticas importantes del Data Mart. Dar a conocer las ventajas y desventajas del Data Mart. Indicar y describir las fases de construccin de un Data Mart.
DATA MART
I. HISTORIA
Desde pocas remotas la humanidad se ha preocupado por la creacin de bienes con el mnimo de recursos. Distintos pueblos y en distintos perodos se practicaban la previsin, planeacin y organizacin de grupos para ejercitar diversas actividades (entre ellas la pesca, agricultura, el comercio, la guerra, etc.). En aos ms recientes durante la revolucin industrial se pusieron en prctica ideas que sirvieron para la creacin de la administracin, ya que durante ese tiempo se pens en la manera de producir ms con menos recursos. A partir de ese momento precursores e idealistas fueron sentando las bases para la creacin de la administracin convirtindola en una ciencia. La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes, tal es el caso de los antiguos pueblos al utilizar monedas de metal con
diferentes insignias, descripciones y denominaciones para el intercambio de artculos o servicios. Tal es as que nace el trmino de Business Intelligence que es bastante antiguo, hace miles de aos los maya/ incas, fenicios, persas, egipcios y otros pueblos practicaban este principio cuando usaban informacin obtenida de la naturaleza, que luego usaban a la hora de tomar decisiones para mejoras en la vida de sus pueblos. Un claro ejemplo lo podemos ver en Espaa, despus de la conquista de Amrica. El rey espaol cre la "Casa del Oro", en donde se registraban las transacciones de pago compulsorio de oro, ello permiti tener una visin general de la economa del pas hispano. En los aos 60's surgen las tarjetas perforadas, los transistores y el lenguaje estructurado COBOL. Este nuevo despliegue tecnolgico, permiti al usuario facilitar el control de los sistemas y de la informacin.
Este conjunto de herramientas y metodologas tienen en comn las siguientes caractersticas: Accesibilidad a la informacin: Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y tcnicas ser el acceso de los usuarios a los datos con independencia de la procedencia de estos. Apoyo en la toma de decisiones: Se busca ir ms all en la presentacin de la informacin, de manera que los usuarios tengan acceso a herramientas de anlisis que les permitan seleccionar y manipular slo aquellos datos que les interesen. Orientacin al usuario final: Se busca independencia entre los conocimientos tcnicos de los usuarios y su capacidad para utilizar estas herramientas
II. DEFINICIONES
Es un pequeo DataWarehouse, para un determinado nmero de usuarios, para un rea funcional, especifica de la compaa. Tambin podemos definir que un Data Marts es un subconjunto de una bodega de datos para un propsito especfico. .Es una base de datos orientada a un tema especfico. En otras palabras es un subconjunto del DataWarehouse Corporativo. Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un DataWareHouse, o integrar por si mismo un compendio de distintas fuentes de informacin.
III.
TIPOS DE DATAMART
Se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice.
DATAMART OLAP
DATAMART OLTP
Pueden basarse en un simple extracto del datawarehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa.
Las estructuras ms comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de consultas.
V. VENTAJAS Y DESVENTAJAS
BENEFICIOS
Implementacin rpida y sencilla. Menor costo de implementacin. Cubre necesidades especficas del negocio. Respuestas rpidas por el menor volumen de informacin. Asegura la consistencia de los datos
Permite al acceso de los datos por medio de un gran nmero de herramientas del mercado, logrando independencia de estas.
Dado que un DataMart soporta menos usuarios que un DataWarehouse se puede optimizar para recuperar ms rpidamente los datos que necesitan los usuarios.
DESVENTAJAS
Inadvertidamente se puede usar datos no compatibles con otros DataMarts que luego alarguen el tiempo de unificacin. Si el Datawarehouse es construido primero, se requiere de hardware adicional para soportar DataMarts individuales. Datos descentralizados debido a que cada DataMart corresponde a una base de datos individual por tema o por rea. No permite el manejo de grandes volmenes de informacin por lo que muchas veces se debe recurrir a un conjunto de DataMarts para cubrir todas las necesidades de informacin de la empresa.
MOLAP: La arquitectura MOLAP usa una base de datos multidimensionales para proporcionar el anlisis, su principal premisa es que el OLAP esta mejor implantado almacenando los datos multidimensionalmente. ROLAP: Relational OLAP. Tanto los datos pre calculados y agregados como los datos fuente residen en la misma base de datos relacional. Si el DataWarehouse es muy grande o se necesita rapidez por parte de los usuarios puede ser un problema. HOLAP: Hybrid OLAP: es una combinacin de los dos anteriores. Los datos agregados y pre calculados se almacenan en estructuras multidimensionales y los de menor nivel de detalle en el relacional. Requiere un buen trabajo de anlisis para identificar cada tipo de dato.
Caractersticas:
Son pobladas por usuarios finales. Se optimizan en funcin a procesos transaccionales.
OLTP: (On-Line Transaction Processing) Sistemas de procesamiento de transacciones en lnea o sistemas transaccionales, en los cuales residen las operaciones del da a da de cada negocio y que son la fuente prioritaria de datos para cada DataMart o el DataWarehouse corporativo.
manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el DataMart. Uno de los desafos de cualquier implementacin de DataWarehouse o DataMart, es el problema de transformar los datos. La transformacin se encarga de las inconsistencias en los formatos de datos y la codificacin, que pueden existir dentro de una base de datos nica y que casi siempre existen cuando mltiples bases de datos contribuyen al DataMart. La transformacin de datos tambin se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisin sobre que reglas de transformacin sern establecidas, deben crearse e incluirse las definiciones en las rutinas de transformacin.
5.3 DATAWAREHOUSE
Un DataWarehouse contiene la informacin de toda la empresa. Cualquier departamento puede acceder a la informacin de cualquier otro departamento mediante un nico medio, as como obligar a que los mismos trminos tengan el mismo significado para todos. Un Datamart almacena la informacin de un rea o departamento especfico y un conjunto de Datamarts forman un DataWarehouse.
Un Datamart es una solucin que, compartiendo tecnologa con el DataWarehouse (pero con contenidos especficos, volumen de datos ms limitado y un alcance histrico menor), permita dar soporte a una empresa pequea, un departamento o rea de negocio de una empresa grande. El DataMart cubre de manera ptima las necesidades de informes. No es conveniente efectuar consultas sobre los sistemas transaccionales, debido a que hay que integrar datos de diversas OLTP. Los MetaDatos son informacin sobre los datos. Para un mercado de datos, metadatos incluyen:
Una descripcin de los datos en trminos de negocio Formato y definicin de los datos en trminos del sistema Fuentes de datos y actualizar los datos de frecuencia
El objetivo principal para el proceso de gestin de metadatos es proporcionar un directorio de puntos de vista tcnico y comercial de los metadatos DataMart. Los metadatos pueden ser categorizados como metadatos tcnicos y los metadatos de negocio. Los metadatos tcnicos se componen de metadatos creados durante la creacin del mercado de datos, as como metadatos para apoyar la gestin de la despensa de datos. Esto incluye las normas de adquisicin de datos, la transformacin de los datos fuente en el formato requerido por la meta data mart y horarios para realizar copias de seguridad y restauracin de datos. Metadatos de negocios permite a los usuarios finales para comprender qu tipo de informacin est disponible en el mercado de datos y la forma en que se puede acceder
El DataMart no est orientado a procesos relacionados con la operatividad del rea determinada. El DataMart est preparado para ser explotado mediante herramientas especficas que permiten la extraccin de informacin significativa y patrones de comportamiento que permanecen ocultos en un enorme repositorio de datos. Veamos las herramientas software que existen:
una base de datos, extrae los datos pertinentes, efecta clculos adicionales, manipula los datos si es necesario y presenta los resultados en un formato claro.
Se puede almacenar las consultas y los pedidos de reporte para trabajos subsiguientes, como est o con modificaciones. El procesamiento estadstico se limita comnmente a promedios, sumas, desviaciones estndar y otras funciones de anlisis bsicas. Aunque las capacidades varan de un producto a otro, las herramientas de consulta y reporte son ms apropiadas cuando se necesita responder a la pregunta "Qu sucedi"?.
HERRAMIENTAS
DE
BASE
DE
DATOS
MULTIDIMENSIONALES / OLAP
Las primeras soluciones OLAP (On Line Analytical Processing), estuvieron basadas en bases de datos multidimensionales (MDDBS). Un cubo estructural (dos veces un hipercubo o un arreglo multidimensional) almacenaba los datos para que se puedan manipular intuitivamente y claramente ver las asociaciones a travs de dimensiones mltiples Pero este enfoque tiene varias limitaciones: Las nuevas estructuras de almacenamiento de datos requieren bases de datos propietarias. No hay realmente estndares disponibles para acceder a los datos multidimensionales. La segunda limitacin de un MDDB concierne al desarrollo de una estructura de datos. Las compaas generalmente almacenan los datos de la empresa en bases de datos relacionales, lo que significa que alguien tiene que extraer, transformar y cargar estos datos en el hipercubo.
posible para comprender el uso de la herramienta. El precio de esta facilidad de uso es que por lo general existen algunas limitaciones sobre las capacidades analticas disponibles con el sistema de informacin ejecutivo. Adems, muchas de las herramientas de consulta/reporte y
OLAP/multidimensional, pueden usarse para desarrollar sistemas de informacin ejecutivos. El concepto de sistema de informacin ejecutivo es simple: los ejecutivos no tienen mucho tiempo, ni la habilidad en muchos casos, para efectuar el anlisis de grandes volmenes de datos. El EIS presenta vistas de los datos simplificados, altamente consolidados y mayormente estticas.
tormenta de nieve, etc., depender de la herramienta de explotacin que estn utilizando PASO 4: ELABORACIN DEL MODELO MULTIDIMENSIONAL COMPLEJO En esta etapa se realiza el proceso de calificacin a los indicadores y a los atributos.
En un modelo multidimensional complejo los usuarios podrn segmentar a los clientes, productos o cualquier otro atributo en forma fcil y sencilla, pudiendo diferenciarlos segn cuanto consumen y/o como consumen. Por ejemplo: Si queremos segmentar a productos segn la rotacin delos ltimos 6 meses, se puede crear un grupo personalizado llamado: Calificacin de productos en el que se especifica si tiene alta, mediana o baja rotacin.
PASO 5: ELABORACIN DE LAS ESPECIFICACIONES DE CARGA DE DATOS Este es el momento donde se trata de buscar la informacin en las diferentes fuentes de datos de la organizacin para cargar el modelo multidimensional creado. PASO 6: CREACIN DE BASE DE DATOS. Se debe crear una base de datos que contendr la informacin del DataMarts que ser explotada. En el caso que no exista una metadata se deber crear una base de datos en blanco con las caractersticas y especificaciones tcnicas de la herramienta que ser utilizada para la explotacin de los datos. PASO 7: CONSTRUCCIN DE LA ARQUITECTURA DEL DATA MARTS. Este es el momento donde se construyen la arquitectura del DATAMART, que en el caso de las herramientas MOLAP seran los cubos de informacin. PASO 8: ETL Consiste en extraer, transformar y cargar los datos de los sistemas fuentes hacia la base de datos del DataMarts. Los programas de ETL deben cumplir con las especificaciones que se desarrollaron en el paso 5, con la finalidad de llevar una correcta documentacin del proyecto. Los programas de cargas deben verificar los errores de integridad referencial y limpiarla en el caso que se detecte alguna ocurrencia. Una mala planificacin o construccin de los programas de ETL pueden ocasionar que los usuarios dejen de usar el DataMarts, por ejemplo: o La informacin est inconsistente o Slo se tiene cargado pocos periodos debido a la falta de espacio en el disco. o La carga se paraliz debido a que uno de los programas identific que existe datos inconsistentes. o Los programas no se ejecutaron en el momento que se requeran. o No se puede reprocesar la informacin y se mantienen datos no certeros.
PASO 9: IMPLEMENTACIN Un motivo relevante por el cual los usuarios no utilizan los DataMarts es por falta de capacitacin PASO 10: CAPACITACIN AL USUARIO Otro de los principales motivos por el cual los usuarios no utilizan los DataMarts es por falta de capacitacin. La capacitacin que debe recibir el usuario debe estar enfocada en: a. El Modelo Multidimensional.- Es importante que los usuarios conozcan los diferentes modelo multidimensionales de la empresa. b. La Herramienta de explotacin:- Se dice que los usuarios solo utilizan el 20% de las opciones que cuentan las herramientas de explotacin por falta de capacitacin. c. Las herramientas de gestin:- Los usuarios deben ser constantemente capacitados en herramientas de gestin como creacin de Dashboard, Scorecard, etc
6. REPRESENTACIONES GRAFICAS
DATAMART
DataMarts Dependientes
7. EJEMPLO DE APLICACION
EJEMPLO N 1: TEMA: IMPLEMENTACIN
EN SQL SERVER 2005 DE DATAMART PARA EL S O P O R T E A L A T O M A D E D E C I S I O N E S EN LA CONSULTORA Y CONSTRUCCIN DE VIGAS DE HORMIGN ARMADO DE UNA E MPRESA CONSULTORA CONSTRUCTORA
Las vigas de solo hormign son ineficientes como elementos sometidos a flexin debido a que la resistencia a flexin es muy limitada. En consecuencia, estas fallan por tensin a cargas bajas. Por esta razn, se colocan barras de acero de refuerzo en el lado sometido a tensin y tan cerca como sea posible de la cara inferior.
ESCENARIO
Este proyecto de investigacin se extiende en el rea del Data Warehouse y Data Mart (almacn de datos) de las bases de datos profesionales de las ciencias de la computacin con campo de aplicacin en la tecnologa del hormign armado de la ingeniera civil; especficamente, en el diseo y construccin del elemento horizontal denominado viga
PROBLEMA IDENTIFICADO
Un problema identificado en el proceso de diseo/construccin de elementos de hormign armado es la carencia de informacin compilada, precisa y de respaldo que permita soportar la toma de decisiones con relacin a dicho proceso. Los elementos de hormign armado como vigas, columnas, losas y otros, muy pocas veces se construyen exactamente conforme el clculo proyectado en los planos; ms bien, las desviaciones durante la construccin, ocurren frecuentemente y se van acumulando en dependencia de la cantidad de elementos que componen una edificacin u otra obra civil. Estas desviaciones en la construccin a la larga ocasionan prdidas econmicas o reflejan una mala administracin de fondos; pero sobre todo podran lograr atentar contra el factor de seguridad funcional que debera ofrecer una obra de servicio. Es importante aclarar que, las desviaciones en la construccin de un elemento se deben muchas veces a un inadecuado manejo y conocimiento de la precisin que ofrecen los medios de construccin o bien se deben a fallas humanas de direccin y/o ejecucin.
toma de decisiones de la empresa. Se emplear la herramienta Microsoft SQL Server 2005 Business Intelligence Development Studio.
Medidas
Cantidad de vigas construidas. Cantidad de vigas construidas con algn desvo en su construccin. Cantidad de vigas con desvos en su construccin con relacin a la resistencia del hormign. Cantidad de vigas con desvos en su construccin con relacin a la resistencia del acero. Cantidad de vigas con desvos en su construccin con relacin al ancho de la seccin. Cantidad de vigas con desvos en su construccin con relacin al alto de la seccin. Cantidad de vigas con desvos en su construccin con relacin a su largo o vano. Cantidad de vigas con desvos en el rea del acero de refuerzo. Cantidad de vigas con desvos en la resistencia (momento) de diseo. Diferencia de volumen del elemento construido respecto al volumen de diseo. Diferencia de costo del elemento construido respecto al costo de diseo
Dimensiones
Acero de refuerzo: cdigo y dimetro Asignaciones: obra e ingeniero ejecutor Familia: tipo de seccin de la viga y naturaleza de la falla Tiempo: gestin y mes
2. INFORMACIN DISPONIBLE
La empresa cuenta con una fuente OLTP base de datos relacional SQL Server conformada a partir de las siguientes tablas: En esta tabla denominada INGE se almacenan los nombres de los ingenieros ejecutores o constructores delos elementos de hormign armado. En la tabla PROY se almacenan las descripciones de las obras o proyectos encargados a la empresa.
En la tabla ASIGN se relacionan los ingenieros constructores y los proyectos a su cargo mediante llaves forneas que hacen referencia a las llaves primarias delas dos tablas anteriores.
En la tabla BARRA se almacenan los dimetros de los distintos tamaos de barras de acero usados en la construccin.
En la tabla TIEMPO se almacenan la gestin y el mes para ser usados en el historial de obras proyectadas y ejecutadas por la empresa.
En la tabla FAMILIA se almacenan las posibles familias de vigas de hormign armado segn el tipo de seccin y segn la naturaleza de la falla (vase ms abajo).
En la tabla VIDIS se almacenan las distintas variables involucradas en la etapa de DISEO de una viga de hormign armado COAS Llave fornea; hace referencia a la tabla de asignaciones ingeniero-obra. RESHOR Resistencia del hormign en Kg/cm. RESACER Resistencia del acero en Kg/cm. ANCHO Ancho de la seccin (cm). ALTO Alto de la seccin (cm).LONG Largo del elemento (m). VOL Volumen del elemento (m3).TSECC Tipo de seccin (cuadrada o rectangular).COBA Llave fornea; referencia a la tabla de acero. CANTBA Cantidad de barras de acero. AACER rea del acero de refuerzo (cm). CUANTOK S cuando la cuanta de acero est dentro delos lmites permisibles. FALLA Naturaleza de la falla del elemento RESMOM Resistencia a momento del elemento. COSTO Costo del elemento (Bs.) COTM Llave fornea; a la tabla TIEMPO. COFM Llave fornea; a la tabla FAMILIA
En la tabla VICONS se almacenan las variables involucradas en la etapa de CONSTRUCCION de una viga de hormign armado. COVI Llave fornea; a la viga en la tabla de diseo. COAS_C Llave fornea; a la tabla asignaciones ingeniero-obra. RESHOR_C Resistencia del hormign armado en Kg/cm. RESACER_C Resistencia del acero en Kg/cm. ANCHO_C Ancho de la seccin (cm).ALTO_C Alto de la seccin (cm). LONG_C Largo del elemento (m). VOL_C Volumen del elemento (m3). TSECC_C Tipo de seccin (cuadrada o rectangular) COBA_C Llave fornea; a la tabla barras de acero. CANTBA_C Cantidad de barras de acero. AACER_C rea del acero de refuerzo (cm). CUANTOK_C S cuando la cuanta de acero est dentro de lmites. FALLA_C Naturaleza de falla del elemento. RESMOM_C Resistencia a momento del elemento COSTO_C Costo del elemento (Bs.) COTM_C Llave fornea; hace referencia a la tabla TIEMPO.COFM_C Llave fornea; hace referencia a la tabla FAMILIA
Todas estas tablas se relacionan segn la lgica del proceso diseo/construccin de vigas de hormign armado. Como puede apreciarse en el diseo lgico de a continuacin, las tablas principales son las tablas de diseo VIDIS y de construccin VICONS del elemento viga
En la tabla DIMBARRA se almacena la dimensin del acero; til para visualizar el anlisis en funcin de la denominacin o bien del dimetro de la barra del acero de refuerzo. En la tabla DIMFAMILIA se almacena la dimensin dela familia de vigas; til para visualizar el anlisis en funcin del tipo de la seccin o en funcin de la naturaleza de falla del elemento.
En la tabla DIMTIEMPO se almacena la dimensin del tiempo; til para visualizar el anlisis por gestin o bien por mes.
Aunque la herramienta Business Intelligence de Microsoft SQL Server permite poblar la dimensin tiempo de manera automatizada, en el presente trabajo se ha preferido administrarla manualmente para tener un mejor control sobre la dimensin misma; incluso para poder disponer de una correcta ordenacin (cronolgica en vez de alfabtica).
RES_HOR_ERR # de vigas con desvos en la resistencia del hormign. RES_ACER_ERR # de vigas con desvos en la resistencia del acero. ANCHO_ERR # de vigas con desvos en el ancho de la seccin. ALTO_ERR # de vigas con desvos en el alto dela seccin. LARGO_ERR # de vigas con desvos en el largo o vano. VOL_DIF volumen (m3). A_ACERO_DIF de acero(cm). Diferencia de
Diferencia en el rea
RES_MOM_ERR # de vigas con desvos en la resistencia a momento. COSTO_DIF ELE_ERR Diferencia en el costo (Bs.) # de vigas con algn desvo en su construccin.
Las medidas y las llaves forneas de las dimensiones se ensamblan en la tabla de hechos VIGAFACT.
El formulario de expresiones matemticas que permiten el clculo de las diversas medidas de la tabla de hechos, se describe a continuacin. Es importante adelantar que, todas estas frmulas han sido implementadas en una vista diseada sobre el OLTP para efectos de la etapa ETL (EXTRACTIONTRANSFER LOADING), como se ver un poco ms adelante. Medida RES_HOR_ERR RES_ACER_ERRSIGN ANCHO_ERR ALTO_ERR LARGO_ERR VOL_DIF A_ACERO_DIF RES_MOM_ERR SIGN COSTO_DIF ELE_ERR Frmula Matemtica SIGN(ABS(VICONS.RESHOR_CVIDIS.RESHOR)) (ABS(VICONS.RESACER_CVIDIS.RESACER)) SIGN(ABS(VICONS.ANCHO_C-[Link])) SIGN(ABS(VICONS.ALTO_C-[Link])) SIGN(ABS(VICONS.LONG_C-[Link])) (VICONS.VOL_C-[Link]) (VICONS.AACER_C-[Link]) (ABS(VICONS.RESMOM_C-[Link])) (VICONS.COSTO_C-[Link]) SIGN(ABS(RES_HOR_ERR + RES_ACER_ERR + ANCHO_ERR + ALTO_ERR + LARGO_ERR + A_ACER_DIF)
El modelo del cubo o Data Mart est centrado en la tabla de hechos VIGAFACT a partir de la cual se desprenden todas las dimensiones. Se trata de un modelo tipo estrella (star ):
Luego, el cubo debe ser implementado mediante un proyecto Analysis Services de Business Intelligence de Microsoft SQL Server [Link], se crean los orgenes de datos mediante conexiones a la base de datos de la fuente OLTP y almodelo del cubo anteriormente creado; esto, se aprecia en la siguiente captura:
Luego, se crea una vista del origen de datos a partir del modelo ya existente en la base de datos. La captura correspondiente se aprecia en la siguiente pgina
A continuacin se va implementando el cubo. Durante la implementacin del cubo, se deben identificar las tablas de hechos y las tablas de dimensiones conforme se muestra a continuacin
Enseguida, se muestra el DataMart implementado conforme el diseo expuesto con anterioridad. Puede distinguirse rpidamente un esquema tipo estrella. Vase la ilustracin siguiente.
Una vez realizado el cubo, se configuran las estructuras de las dimensiones del mismo por medio del reconocimiento de jerarquas o niveles pero a partir de la vista de datos; esto, conforme se muestra a continuacin.
proyecto incluye tres tareas principales: una tarea para el borrado de contenidos de las tablas del DataMart, otra tarea para el poblado de las dimensiones del cubo y una ltima tarea para el poblado de la tabla de hechos. Nota: El poblado de las dimensiones del cubo debe ir siempre antes que la tabla de hechos porque contiene las llaves primarias.
El paquete de flujo de control para ste proyecto. En este paquete de flujo de control, la primera tarea de borrado de las tablas del cubo ha sido programada segn el siguiente conjunto de instrucciones SQL:
El mapeo de campos entre los orgenes y destinos de datos prcticamente resulta automtico cuando se disea el DataMart procurando mantener los nombres de los campos originales.
La tarea de flujo de datos para poblar la tabla de hechos incluye un control transformador
La VISTA01 mostrada en la ilustracin anterior ha sido diseada sobre la fuente OLTP exclusivamente para ste proceso ETL y segn la siguiente secuencia SQL:
Importante comentar que, la aplicacin de la funcin matemtica del signo SIGN al valor absoluto ABS dela diferencia entre un valor final con respecto a uno inicial, da 1 si hay alguna diferencia y 0 si no hay ninguna. Esto para que en el cubo pueda tenerse medidas acumulativas y sumatorias con respecto a la informacin de anlisis. Por otra parte, el control de transformacin CALCULOS (ilustracin 18) ha sido empleado para obtener la columna derivada ELE_ERR a partir del OLTP fuente. Esta columna ELE_ERR contiene 1 si el elemento viga de hormign ha sufrido algn defecto durante su construccin, y contiene 0 (cero) si ha sido construido estrictamente segn el diseo. Como se vio anteriormente, su frmula es la siguiente:
Una vez preparadas todas las tareas descritas anteriormente, se ejecuta el paquete de flujo de control obteniendo resultados satisfactorios (color verde) como se aprecia en la ilustracin siguiente:
Diseo de la agregacin
Con el diseo de la agregacin concluido, se procesan dichas agregaciones para las dimensiones del cubo conforme se muestra en la ilustracin siguiente:
Examinar el cubo.
Conforme se puede apreciar en la ilustracin anterior, el cubo se ve implementado con xito.
Ante de manipular el cubo para efectos prcticos y con el fin de obtener una mejor legibilidad de las dimensiones y medidas del mismo, se procede con el completado de las traducciones segn lo siguiente:
De sta manera, puede hacerse un primer uso prctico del cubo como se muestra en la ilustracin siguiente:
RESULTADOS:
- La creacin del presente DataMart permitir que las diferentes reas o unidades de la facultad cuenten con informacin acadmica de una forma autnoma, sin que exista la dependencia de centro de clculo, siempre guardando los debidos controles de seguridad y acceso a la informacin. - Contar con una herramienta de inteligencia de negocio en la Escuela de Ciencias y Sistemas, facilitar la informacin que muchas empresas requieren sobre referencias de los estudiantes que solicitan empleos. As tambin, permitir que la asignacin de carga de estudiantes sea mejor distribuida entre los catedrticos, incluso entre otros recursos tales como los salones
DATAMART PARA EL REA DE SISMOLOGA DEL DEPARTAMENTO DE GEOFSICA DE LA ESCUELA POLITCNICA NACIONAL. - QUITO MARZO 2006
RESULTADOS.
El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La informacin en el ambiente operacional es ms reciente con respecto a la del Data mart. Desde la perspectiva de los horizontes de tiempo nicos, hay poca superposicin entre los ambientes operaciones y de DataMart. El DataMart contiene un resumen de la informacin que no se encuentra en el ambiente operacional. Los datos experimentan una transformacin fundamental cuando pasan al DataMart.
8. CONCLUSIONES Y RECOMENDACIONES
La implementacin de un proceso de inteligencia de negocio en una organizacin, permite que la informacin fluya de una forma natural y controlada desde donde se producen las transacciones del da a da de la organizacin, hasta convertirlas en informacin y conocimiento que permiten a los usuarios finales tomar mejores y efectivas decisiones. El DataMart es especfico para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante. La diferencia principal entre los mercados de datos independientes y dependientes es la forma de llenar la despensa de datos, es decir, cmo obtener datos de las fuentes y en la despensa de datos. El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algn informe complejo, por lo que su utilizacin directa no est recomendada a usuarios finales. Del ejemplo aplicativo [Link] implementacin en SQL Server 2005 de
DataMart tendr grandes beneficios ya que brindara un soporte en la toma de decisiones que se realizar en la consultora y construccin de vigas de hormign armado de la empresa consultora constructora. Del ejemplo aplicativo N2. En la escuela de ciencias y sistemas se obtendrn grandes beneficios al utilizarse el DataMart acadmico, puesto que se podr analizar el comportamiento de los estudiantes de la escuela y por ende se podr tomar mejores decisiones en cuanto al uso de los recursos y el enfoque de la carrera de sistemas de la Facultad de Ingeniera. Todas las empresas que manipulen informacin de mucha importancia debe implementar los Data Mart para poder darle un mejor manejo a toda esa
informacin y de esta manera realizar la toma de decisin adecuada dentro de cada rea especfica..
9. BIBLIOGRAFIA
[Link] [Link] ta+Mart%29. [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link]
Data mart
Un Data mart es una versin especial de almacn de datos (data warehouse). Son subconjuntos de datos con el propsito de ayudar a que un rea especfica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples formas para que diversos grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades. El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la informacin. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se conoce como Data Mining al proceso no trivial de anlisis de grandes cantidades de datos con el objetivo de extraer informacin til, por ejemplo para realizar clasificaciones o predicciones. En sntesis, se puede decir que los data marts son pequeos data warehouse centrados en un tema o un rea de negocio especfico dentro de una organizacin.
Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los datos para alguna herramienta OLAP). Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado. Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.
Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicacin en el Data Warehouse principal de la Empresa. Demostracin sobre el terreno: para demostrar la viabilidad y el potencial de una aplicacin antes de migrarla al Data Warehouse de la Empresa. Poltica: Cuando se decide una estrategia para las TI (Tecnologas de la informacin) en situaciones en las que un grupo de usuarios tiene ms influencia, para determinar si se financia dicha estrategia o descubrir si sta no sera buena para el almacn de datos centralizado. Poltica: Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacn de datos no est en condiciones de crear un almacn de datos utilizable.
Segn la escuela Inmon de data warehouse, entre las prdidas inherentes al uso de data marts estn la escalabilidad limitada, la duplicacin de datos, la inconsistencia de los datos con respecto a otros almacenes de informacin y la incapacidad para aprovechar las fuentes de datos de la empresa. As y todo estas herramientas son de gran importancia.
Son ms simples de implementar que un Data Warehouse: FALSO, la implementacin es muy similar, ya que debe proporcionar las mismas funcionalidades. Son pequeos conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos: FALSO, una aplicacin corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse. Las consultas son ms rpidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero s se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse. En algunos casos aade tiempo al proceso de actualizacin: FALSO, actualizar el data mart desde el data warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idnticos) que actualizar el data warehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformacin (ver ETL).
Seccin A.1, "Qu es un Data Mart?" Seccin A.2, "Cmo es diferente de un almacn de datos?" Seccin A.3, "Data Marts dependientes e independientes" Seccin A.4, "Cules son los pasos en la implementacin de un Data Mart?"
la tecnologa de la informacin corporativa (IT) del grupo. Con frecuencia, se llama un depsito central de datos o de la empresa. Por lo general, un almacn de datos rene datos de los sistemas de mltiples fuentes. Nada en estas definiciones bsicas limita el tamao de un mercado de datos o la complejidad de los datos de soporte de decisiones que contiene. Sin embargo, los data marts son tpicamente ms pequeos y menos complejos que los almacenes de datos, por lo que por lo general son ms fciles de construir y mantener. Tabla A-1 se resumen las diferencias bsicas entre un almacn de datos y un data mart. Tabla A-1 Diferencias entre un Data Warehouse y un Data Mart Categora Alcance Sujeto Fuentes de datos Tamao (tpico) Tiempo de Implementacin Data Warehouse Corporativo Mltiple Muchos 100 GB-TB + Meses o aos Data Mart Lnea de negocio (LOB) Sujeto individual Pocos <100 GB Meses
fuentes es probable que sea menos y la cantidad de datos asociados con el mercado de datos es menor que el almacn, dado su enfoque en un solo tema. Las motivaciones detrs de la creacin de estos dos tipos de data marts son tambin tpicamente diferente. Mercados de datos dependientes se construyen generalmente para lograr un mejor rendimiento y disponibilidad, un mejor control y reducir los costes de las telecomunicaciones como consecuencia del acceso local de los datos relacionados con un departamento especfico. La creacin de mercados de datos independientes a menudo es impulsada por la necesidad de disponer de una solucin en un tiempo ms corto.
Seccin A.4.1, "Diseo" Seccin A.4.2, "La construccin" Seccin A.4.3, "Cmo llenar" Seccin A.4.4, "Acceso" Seccin A.4.5, "Gestin"
A.4.1 Diseo
La etapa de diseo es el primero en el proceso de data mart. Esta etapa cubre todas las tareas de iniciar la solicitud de un puesto de datos a travs de la recopilacin de informacin acerca de los requisitos, y el desarrollo del diseo lgico y fsico del data mart. La etapa de diseo comprende las siguientes tareas:
Reunir los requisitos tcnicos y de negocio Identificar las fuentes de datos Seleccionar el subconjunto apropiado de los datos Diseo de la estructura lgica y fsica del data mart
A.4.2 Construccin
Este paso incluye la creacin de la base de datos fsico y las estructuras lgicas asociadas con el mercado de datos para proporcionar acceso rpido y eficiente a los datos. Este paso implica las siguientes tareas:
La creacin de la base de datos fsico y las estructuras de almacenamiento, tales como espacios de tabla, asociado con el puesto de datos Crear los objetos de esquema, como tablas e ndices definidos en la etapa de diseo Determinar la mejor forma de configurar las tablas y las estructuras de acceso
A.4.3 Poblando
El paso poblar cubre todas las tareas relacionadas con la obtencin de los datos de la fuente, la limpieza para arriba, modificndolo al formato adecuado y el nivel de detalle, y que se incorpore al mercado de datos. Ms formalmente declarado, el paso consiste en rellenar las siguientes tareas:
Cartografa de las fuentes de datos para orientar las estructuras de datos Extraccin de los datos La limpieza y la transformacin de los datos Cargando datos en el data mart Creacin y almacenamiento de los metadatos
A.4.4 Acceso
El paso de acceso consiste en colocar los datos a utilizar: la consulta de los datos, su anlisis, la creacin de informes, tablas y grficos, y la publicacin de los mismos. Tpicamente, el usuario final utiliza una interfaz grfica herramienta para enviar consultas a la base de datos y visualizar los resultados de las consultas. El paso de acceder requiere que realice las siguientes tareas:
Crear una capa intermedia para la herramienta de front-end para su uso. Esta capa, la metalayer, traduce las estructuras de bases de datos y nombres de objeto en trminos de negocio, por lo que el usuario final puede interactuar con el mercado de datos utilizando trminos que se relacionan con la funcin empresarial. Mantener y gestionar estas interfaces de negocio. Configurar y administrar estructuras de bases de datos, como tablas resumen, que las consultas de ayuda presentadas a travs de la herramienta de front-end ejecutar de forma rpida y eficiente.
A.4.5 Gestin
Este paso implica la gestin del mercado de datos sobre su vida. En este paso, va a realizar las tareas de gestin, tales como los siguientes:
Proporcionar acceso seguro a los datos Gestionar el crecimiento de los datos La optimizacin del sistema para un mejor rendimiento Asegurar la disponibilidad de los datos incluso con fallos del sistema
Seccin B.1, "Definicin del Alcance del Proyecto Data Mart" Seccin B.2, "Definicin de los requisitos para el Data Mart" Seccin B.3, "Data Mart Diseo"
Establece las expectativas correctas Prioriza el desarrollo incremental Riesgos y problemas destacados Le permite calcular los costos
Seccin B.2.1, "Definicin de Requerimientos del Negocio" Seccin B.2.2, "Identificacin de los requisitos tcnicos" Seccin B.2.3, "Cmo saber si lo ha hecho bien?"
analista de marketing, especialista en canal, gerente de marketing directo, y el gerente de promocin). Utilice un conjunto coherente de preguntas o una plantilla de entrevista para cada entrevista. Las preguntas deben centrarse en las necesidades de informacin de los usuarios, como el contenido, la frecuencia de actualizacin, las prioridades y el nivel de detalle. Por ltimo, establecer un lmite de tiempo definido en la entrevista y los requisitos de recopilacin de fase, de lo contrario, podra continuar indefinidamente mientras trata de perfeccionar cada requisito. Usted no puede obtener todos los requisitos de este marco de tiempo, pero conseguirs lo suficiente para crear una hoja de ruta. Las necesidades cambian durante el perodo de ejecucin, y se necesita una manera de evaluar y atender las solicitudes de cambios o de rechazar y considerarlos para una etapa futura.
El desempeo de la principal preocupacin? Est limitada por la configuracin de los sistemas? Con qu frecuencia desea actualizar o aadir a los datos? Los usuarios esperan que el mercado de datos a ser una fuente completa de datos departamentales, o es el mercado de datos de alcance limitado a un tema en particular dentro de ese departamento?
Tenga en cuenta las respuestas a estas preguntas a medida que desarrollan sus prioridades y factores crticos de xito. En resumen, aqu estn algunas pautas para facilitar el proceso de definicin de requisitos:
Implicar a los usuarios finales de todo el proceso. Clasificar el marco de anlisis de requisitos: definir los requisitos para el patrocinador del negocio, el arquitecto de TI, el desarrollador mercado de datos, y los usuarios finales. Gestionar las expectativas de los usuarios finales.
Seccin B.3.1, "Creacin de un diseo lgico" Seccin B.3.2, "Creacin de una lista de deseos de los datos" Seccin B.3.3, "Fuentes" Identificacin de Seccin B.3.4, "Clasificacin de datos para el esquema Data Mart" Seccin B.3.5, "Diseo del esquema de las Galaxias" Seccin B.3.6, "Pasar de la lgica de diseo fsico"
Una lista de elementos de datos, tanto en crudo y se calcula Los atributos de los datos, tales como caracteres o tipos de datos numricos Agrupaciones razonable de los datos, como las regiones geogrficas de los elementos del pas, condado, ciudad Una idea de la relacin entre los datos, como "una ciudad dentro de un condado"
Campos de datos tpicos de inters en las Ventas y Marketing de ejemplo podran ser las ventas en dlares, las ventas de unidades, nombres de productos, paquetes, las caractersticas de la promocin, regiones y pases. Identificar el crtico campos: los que llev a la creacin del mercado de datos. Los datos tales como las ventas en dlares o ventas unitarias son crticos para un mercado de datos de ventas. Los usuarios pueden proporcionarle informes para darle una idea de sus necesidades de datos. Estos informes pueden ser informes existentes, o el tipo de informes que les gustara ver. Los informes son un buen vehculo para llegar a los usuarios a expresar sus necesidades. En este punto, puede separar los datos en datos numricos (los hechos) y los datos textuales o descriptivos (las dimensiones). Durante el proceso iterativo de interaccin con el usuario final, pregunte por qu ciertos datos es importante, qu decisiones estn impulsadas por estos datos? Una idea de los procesos de negocio le ayudar a anticiparse a las necesidades futuras de datos.
datos pueden variar desde sistemas operativos, tales como sistemas de procesamiento de pedidos, hasta hojas de clculo. Es necesario asignar los elementos individuales de su lista de deseos a las fuentes. Usted debe comenzar con el ms grande, ms completa fuente y buscar otras fuentes cuando sea necesario. Tpicamente, un gran porcentaje de los datos provienen de una o dos fuentes. Las dimensiones por lo general se pueden asignar a tablas de bsqueda en su sistema operativo. En su forma pura, los hechos que se pueden asignar a las tablas de transaccin. Para el uso en el mercado de datos, los datos de transaccin generalmente necesita ser agregados, basado en el nivel de granularidad especificada. Granularidad es el ms bajo nivel de informacin que el usuario desee. Es posible que algunos de los datos solicitados no se puede asignar. Esto suele suceder cuando las agrupaciones en el sistema de origen no son consistentes con los grupos deseados dentro del mercado de datos. Por ejemplo, en una empresa de telecomunicaciones, las llamadas pueden ser agregados fcilmente por el cdigo de rea. Sin embargo, el mercado de datos necesita datos por cdigo postal. Debido a que un cdigo de rea contiene varios cdigos postales y un cdigo postal puede abarcar mltiples cdigos de rea, es difcil para mapear estas dimensiones. Es posible que algunos datos son muy costosos de adquirir. Por ejemplo, los datos de promocin que los usuarios solicitados no se pueden obtener fcilmente debido a que la informacin no es coherente a travs del tiempo o la promocin. Para traducir a un formato de sistema comn sera muy costoso.
B.3.4.1 Dimensiones
En el ejercicio de clasificacin, muchos de los campos del origen de OLTP va a terminar como dimensiones. El problema de diseo importante es decidir si un campo es ms que otro elemento de una dimensin existente, o cuando debe tener su propia dimensin. La dimensin del tiempo se genera de forma independiente usando las fechas discretas en la fuente OLTP. Esto ofrece flexibilidad para realizar cualquier anlisis de series de tiempo. Para un esquema en estrella verdadera, el orden de creacin de las tablas de dimensiones no importa el tiempo que se crean antes de la tabla de hechos. Por lo general, una tabla debe ser creado antes de otras tablas puede hacer referencia a ella. Por lo tanto, asegrese de crear todas las tablas de dimensiones en primer lugar. B.3.4.2 Datos Los hechos son los indicadores numricos de la empresa. Apoyan clculos matemticos utilizados para informar y analizar el negocio. Algunos datos numricos son dimensiones disfrazados, incluso si parecen ser hechos. Si usted no est interesado en un resumen de un artculo en particular, el artculo puede ser en realidad una dimensin. Tamao de base de datos y el rendimiento general mejorar si se realiza una clasificacin campos limtrofes como dimensiones. Por ejemplo, suponga que tiene una base de datos de membresa para un club de salud y quiere saber qu parte de las vitaminas del club de marca a los miembros comprar. En su lista de deseos, tienes varias preguntas como: "Dame el uso por edad ..." y "Dame la edad promedio de los miembros de ..." La edad es un hecho o una dimensin? Que sea una dimensin. B.3.4.3 Granularidad Despus de definir los hechos y dimensiones, a determinar el nivel de detalle apropiado para los datos en el data mart. En este punto, usted sabe por qu los usuarios han solicitado un determinado nivel de informacin dentro de una dimensin. Es necesario estimar los recursos necesarios para proporcionar el nivel requerido de granularidad y, con base en los costos, si es o no puede soportar este nivel de granularidad.
mercado de datos con el control de las teclas en el entorno de mercado de datos, incluso si el cambio de claves en el sistema operativo. Una clave es una secuencia sinttica generada de nmeros enteros. Se incluyen las teclas sintticos en la tabla de dimensiones, adems de la clave natural. A continuacin, utiliza la clave sinttica en la tabla de hechos como la columna que se une a la tabla de hechos a la tabla de dimensiones. Aunque la creacin de claves sintticas requiere una planificacin adicional y trabajo, las claves pueden proporcionar beneficios de llaves naturales:
Teclas naturales a menudo son largas cadenas de caracteres, como en un cdigo de producto. Dado que las claves sintticas son enteros, el tiempo de respuesta a las consultas se mejora. El administrador del mercado de datos tiene el control sobre la clave sinttica. Si un grupo de fabricacin cambia el cdigo del producto de las convenciones de nomenclatura, los cambios no afectan a la estructura del mercado de datos. Considere el uso de claves sintticas para la mayora de las tablas de dimensiones. (En el resto de este tutorial, nos referimos a las claves sintticas como claves del almacn.)
El proceso de traducir los datos de la base de datos OLTP y cargar el esquema en estrella de destino requiere mapeo entre los esquemas. El mapeo puede requerir agregaciones u otras transformadas.
La seccin B.3.6.1, "Estimar el tamao del Data Mart" La seccin B.3.6.2, "Qu son los metadatos?"
B.3.6.1 Estimar el tamao del Data Mart Al estimar el tamao de su mercado de datos, es necesario desarrollar un mtodo que se acomoda a su crecimiento futuro. Hay varios mtodos para estimar el tamao de la base de datos. He aqu una aproximacin: 1. Utilice una muestra representativa de los datos de origen para determinar el nmero de filas de la tabla de hechos. 2. Estimar el tamao de una fila en la tabla de hechos. 3. Estimar el tamao de la tabla de hechos multiplicando el nmero de filas por el tamao de una fila. 4. Estimar el tamao del mercado de datos. En general, el tamao total del mercado de datos es de tres a cinco veces el tamao de la tabla de hechos. Este proceso es generalmente iterativo. Cada vez que los cambios de diseo, se debe estimar el tamao nuevo. Incluso si usted piensa que el esquema en estrella es pequea, usted debe hacer este clculo una vez. Despus de calcular el tamao, puede validar su hiptesis de la siguiente manera: 1. 2. 3. 4. Extraer archivos de ejemplo. Carga los datos en la base de datos. Calcular exacto esperado longitudes de fila. Aadir sobrecarga de indexacin, rollback, y los espacios de tablas temporales, y un sistema de archivos de rea de almacenamiento para los archivos planos.
Para planificar el crecimiento futuro, puede utilizar la relacin entre el tamao estimado del mayor tamao posible de la tabla de hechos para calcular el tamao futuro del mercado de datos: 1. Para cada dimensin, comprobar el nivel de detalle que desea y estimar el nmero de entradas en el mejor nivel. 2. Multiplique el nmero de entradas de todas las dimensiones para obtener las filas mximos posibles. 3. Calcular la relacin entre las filas reales de datos representativos a filas posibles. 4. Estimar el crecimiento de cada tabla de dimensiones durante un periodo de tiempo. 5. Multiplique el nmero de filas de todas las tablas de dimensiones. 6. Ajuste el nmero, usando la escala calculada en el paso 3. 7. Multiplique el resultado por el hecho de tamao de fila de tabla. Es posible que deba programar un trabajo de proceso por lotes regulares para refrescar la despensa de datos de sus fuentes. En funcin de los volmenes de datos y la carga del
sistema, este trabajo puede durar varias horas. Planifique su mercado de datos de actualizacin a fin de que, en circunstancias normales, puede realizarse dentro del tiempo permitido para el procesamiento por lotes, por lo general en la noche. En su proceso de planificacin, tambin se debe estimar el volumen de datos que se actualiza. Desarrollar una estrategia para purgar los datos ms all del perodo de retencin especificado. B.3.6.2 Qu son los metadatos? Los metadatos son informacin sobre los datos. Para un mercado de datos, metadatos incluyen:
Una descripcin de los datos en trminos de negocio Formato y definicin de los datos en trminos del sistema Fuentes de datos y actualizar los datos de frecuencia de
El objetivo principal para el proceso de gestin de metadatos es proporcionar un directorio de puntos de vista tcnico y comercial de los metadatos data mart. Los metadatos pueden ser categorizados como metadatos tcnicos y los metadatos de negocio. Los metadatos tcnicos se compone de metadatos creados durante la creacin del mercado de datos, as como metadatos para apoyar la gestin de la despensa de datos. Esto incluye las normas de adquisicin de datos, la transformacin de los datos fuente en el formato requerido por la meta data mart y horarios para realizar copias de seguridad y restauracin de datos. Metadatos de negocios permite a los usuarios finales para comprender qu tipo de informacin est disponible en el mercado de datos y la forma en que se puede acceder. Usted utiliza los metadatos tcnicos para determinar las reglas de extraccin de datos y programas de actualizacin para el componente de Oracle Warehouse Builder. Del mismo modo, se utilizan los metadatos de negocio para definir la capa de negocio utilizado por la herramienta Oracle BI Answers.
Data Mart
DATA MART Un Data Mart es una version especial almacn de datos (data warehouse). Como los almacenes de datos, los data marts contienen una visin de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el anlisis de tendencias y experiencias pasadas. La diferencia principal es que la creacin de un data mart es especifica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante.
Introduccion de data Mart Los productos Data Warehouse han nacido para resolver problemas de anlisis de grandes masas de informacin, en empresas donde una pequea diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dlares. Data Mart se destaca por una definicin de requerimientos ms fcil y rpida. Tambin se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, as como su duracin. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicacin que integre todas ellas y proporciona las funciones de un EIS (Executive Information System) El conocimiento de los meta datos es tan esencial como el conocimiento de los datos del Data Warehouse. Deben incluir dominio, reglas de validacin, derivacin y transformacin de los datos extrados. Tambin describen las bases de datos del Warehouse, incluyendo reglas de distribucin y control de la migracin hacia los Data Marts. Los procesos que monitorean los procesos del Warehouse (como extraccin, carga, y uso) crean meta datos que son usados para determinar que tan bien se comporta el sistema. Los meta datos, deberan estar disponibles para los usuarios, para ser usados en sus anlisis. Los administradores pueden manejar y proveer el acceso a travs de los servicios del repositorio. El uso efectivo de los Data Marts en un ambiente de Data Warehousing, es un factor importante para la efectividad del Warehouse. Los Data Marts son diseados para satisfacer las necesidades especficas de grupos comunes de usuarios (divisiones geogrficas, divisiones organizacionales, etc.). Los Data Marts son generalmente, subconjuntos del Data Warehouse, pero pueden tambin integrar un nmero de fuentes heterogneas, e inclusive ser ms grandes, en volumen de datos, que el propio Warehouse central. El concepto DataMart es una extensin natural del Data Warehouse, y est enfocado a un departamento o rea especifica, como por ejemplo los departamentos de Finanzas o Marketing. Permitiendo as un mejor control de la informacin que se est abarcando. QU ES DATA MART? Es un pequeos Data Warehouse, para un determinado numero de usuarios, para un area funcional, especifica de la compaa. Tambin podemos definir que un Data Marts es un subconjunto de una bodega de datos para un propsito especifico. Su funcin es apoyar a otros sistemas para la toma de decisiones. Los procesos que conforma el datawarehouse son: 1-Extraccin. 2- Elaboracin. 3-Carga. 4-Explotacin.
Datamart
es un subconjunto de una bodega de datos para unpropsito especfico (e.g., un datamart financiero, uno de marketing,etc.).Se puede ver como una vista de la bodega de datos orientada a un aspecto de un negocio, con un tiempo de vida reducido (e.g., 3aos).Su funcin es apoyar a otros sistemas para la toma de decisiones. Un datamart debe de permitir queries de muchas formas usando herramientas OLAP. Para el proceso de construccin de bodegas de datos existen dosenfoques: Construir primero un ncleo de la bodega de datos y luego hacer varios datamarts Construir primero un datamart e ir expandiendo poco a poco labodega de datos y aadiendo nuevos datamarts
Esta herramienta esta dividida en 2 tipo fundamentalmente: Datamart OLAP Basados en lo populares cubos OLAP, que se construyen agregando las dimensiones que sean necesarias para el medio donde se implante la solucin y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es similar, sin importar la herramienta final que se utilice. Datamart OLTP
Estas son un simple extracto del datawarehouse, no obstante, lo comn es que sean agregadas mejoras en su rendimiento, aprovechando las caractersticas particulares de cada rea de la empresa. Caracteristicas de los datamarts:
Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos