FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS ASIGNATURA: ELECTIVA III –
INTELIGENCIA DE NEGOCIOS TEMA: INFRAESTRUCTURA Y ARQUITECTURA DE
INTELIGENCIA DE NEGOCIOS – Unidad 2
DOCENTE: Ing. Victor Pazmiño M., Msc CUESTIONARIO
Según (Laudon, 2014),
¿Cuál es el objetivo de la Gestión de Datos? (4.2.1)
“El objetivo de la gestio' n de datos es proporcionar la infraestructura y herramientas
para transformar los datos en bruto (rawdata) en informacio ' n corporativa usable
(utilizable) de la ma' s alta calidad” (Laudon, 2014). Al igual que se gestionan los activos
financieros, se deben gestionar los datos, ya que son activos informacionales de la
organizacio' n.
¿Qué pasos requiere el proceso de Gestión de Datos? (4.2.1)
La gestion de los datos es un proceso complejo que requiere:
• Comprension de los datos (perfiles).
• Calidad de los datos y su mejora continua.
• Integracion de los datos, combinando datos similares procedentes de fuentes
diferentes.
• Aumento de los datos con la mejora continua de su valor.
¿Qué atributos deben tener los datos para garantizar un uso competente? (4.2.2)
Los datos deben tener los siguientes atributos para garantizar un uso competente:
El dato debe ser único.
El dato debe ser correcto y exacto.
El dato debe ser oportuno (estar a tiempo).
El dato debe ser consistente.
El dato debe ser completo.
El dato debe estar protegido (confidencialidad, acceso, respaldo, etcétera).
¿Qué es la Integridad de Datos? (4.2.3)
Los datos son el activo intangible mas preciado de las organizaciones. La calidad de datos
es una medida importante que las empresas han de tener presente para su uso en la
planificación de estrategias y tomas de decisiones tacticas. La característica de calidad
de datos es uno de los principales problemas de muchas organizaciones. Las cualidades
del dato son la integridad, la calidad y la veracidad, que son indispensables para su
correcta integración. Es preciso centrarse en la integración de los datos teniendo
presente su rol en la estrategia de la empresa, así como en la calidad de los propios
datos, y han de ser componentes fundamentales de cualquier proceso.
¿Qué es una base de Datos Distribuida? (4.4.2)
base de datos distribuida que registra bloques de información y los enlaza mediante
apuntadores aleatorios, para facilitar la recuperacion posterior de la informacion y
verificar que no se han modificado
Mencione 5 características de un DWH (4.5.1)
Las características fundamentales de un Data Warehouse son las recogidas por Bill
Inmon en su definición clásica de Data Warehouse (y algunas otras que se han ido
introduciendo en estas dos décadas de edad del término):
-Orientado a temas (entidades).
-Los datos contenidos en un Data Warehouse se organizan por temas (entidades):
cliente, vendedor, producto, precios, región, que contienen sólo información relevante
para la toma de decisiones. Un Data Warehouse difiere de una base de datos
operacional en que la mayoría de las bases de datos operacionales tiene una orientación
al producto y se sintoniza para manipular transacciones que actualizan la base de datos.
La orientación a temas proporciona una visión más completa y comprensiva de la
organización. Durante el análisis de Inteligencia de Negocios, la orientación hacia temas
permite que el desempeño
(rendimiento) de una compañía se pueda evaluar ma ' s fa ' cilmente y también se pueda
detectar cualquier fuente de ineficiencia.
-Integrado. Los datos que se producen en las diferentes fuentes se integran y
homogenizan a medida que se cargan en un Data Warehouse. Por ejemplo, los datos de
los clientes se pueden extraer de los sistemas internos y externos, y son integrados
alrededor de un identificador de cliente para crear una vision completa y exhaustiva del
mismo.
7. Mencione 3 aspectos de los DataMarts en relación a los DWH (4.6.1)
• Grande en ambito (recogen información de una amplia variedad de fuentes).
• Facilitan la integración de datos (compilan y recogen datos de múltiples fuentes,
asegurando que los datos sean precisos y actuales).
• Diseñados para Analítica (centrados en el analisis y en la Analítica, para lo que esta' n
optimizados).
Mencione 5 componentes de un marco de trabajo de un DWH según (Turban 2011)
(4.7.1)
• Fuentes del sistema. Internas, externas y personales, que proporcionan datos al Data
Warehouse o Data Mart, según su caso.
• Integración de datos. Tecnologías y procesos que se necesitan para preparar los datos
para su uso (sistemas ETL: procesos de “extracción” , "transformación” y “carga” de los
datos); es decir, se extraen los datos utilizando después un software comercial
denominado ETL o software escrito por el usuario (organización o empresa).
• Arquitectura de almacenamiento de datos para su almacenamiento en el Data
Warehouse o Data Mart de una organización.
• Herramientas y aplicaciones para los diferentes tipos de usuarios, que debera' n
aprender a utilizar o, en su caso, desarrollar.
• Acceso a los datos (middleware). Herramientas que facilitan el acceso al Data
Warehouse. Actúan de intermediación entre los dispositivos de almacenamiento y los
usuarios que utilizan los datos con las aplicaciones y herramientas adecuadas.
• Metadatos, calidad de datos y procesos de gobierno, que debera ' n cumplir con sus
especificaciones y asegurar que los almacenes de datos cumplen sus objetivos. Debido
a sus características especiales entre tecnologías y políticas de gobierno de TI, les
dedicaremos unos apartados especiales. A
Que es un Metadado (4.8)
A fin de documentar el significado de los datos contenidos en un Data Warehouse, se
recomienda establecer una infraestructura de información específica conocida como
metadato. Un metadato es un dato que describe otro dato, es decir, son datos acerca
de datos. Tanto el personal especialista en TI, que opera y gestiona el Data Warehouse,
como los usuarios que acceden a los datos, necesitan metadatos. El personal de TI
necesita información relativa a las fuentes de datos, bases de datos, tablas, uso de datos,
etcétera. Las necesidades de los usuarios incluyen definiciones de datos, herramientas
disponibles de informes/ consultas ( report/ query ), distribución de informes e
información de contactos para ayuda y seguridad. Los metadatos indican para cada
atributo de un Data Warehouse la fuente original de datos, su significado y las
transformaciones a las que ellos se han sometido. La documentación proporcionada por
los metadatos debe mantenerse constantemente actualizada, con el objetivo de reflejar
cualquier modificación en la estructura del Data Warehouse. La documentación debe
ser accesible directamente a los usuarios de almacenes de datos a través de un
navegador web o de un tablero de control (dashboard ), mediante los derechos de
acceso que cada usuario establezca.
Que es OLTP (4.7.2)
Normalmente, los datos procederán de múltiples fuentes: sistemas operacionales/
transaccionales OLTP (On Une Transaction Processing: procesamiento de transacciones
en línea), sistemas de planificación de recursos ERP, datos de sitios web, datos propios
o ajenos heredados, legacy (datos de estadísticas del gobierno, de la Unio' n Europea,
de Eurostat, de la oficina del Censo de Argentina), datos de terceras partes, etcétera. La
tendencia actual de Big Data es incluir datos procedentes de sensores, etiquetas (tags),
chips, RFID y NFC, geolocalizacio' n, etcétera. Estos sistemas de fuentes utilizara ' n
diferentes sistemas de software, tales como Oracle, SAP, IBM, y almacenara ' n los datos
en diferentes formatos (bases de datos relaciónales, multidimensionales, jera' rquicas,
etcétera). Las fuentes de datos ma ' s típicas de una empresa son las bases de datos
operacionales, que son bases de datos relaciónales (bidimensionales), y los Data
Warehouse; adema' s, utilizarán sistemas multidimensionales (bases de datos
multidimensionales y OLAP). Un tema que deben afrontar las empresas es la
redundancia de los datos: tienen muchos sistemas que contienen los mismos datos; en
estos casos, las empresas deben seleccionar cuál es la mejor fuente o el mejor sistema
de datos. Otro concepto importante para tener en cuenta es la granularidad, es decir, el
nivel de detalle con el que se necesitan los datos; no se requiere el mismo detalle en las
transacciones diarias de un cliente que en un banco, o al momento de solicitar un
préstamo personal o una hipoteca para comprar una casa.
Que es OLAP (4.12)
OLAP (On Line Analytical Procesing) es una aplicación conocida también como analisis
multidimensional (procesamiento analítico en línea). OLAP es una base de datos
multidimensional donde el almacenamiento físico de los datos se realiza en un vector
unidimensional. Los cubos OLAP se suelen comparar, a veces, con una hoja de calculo
ampliada. Soporta analisis de datos multidimensional y facilita a los usuarios su vision
en diferentes formas, utilizando múltiples dimensiones. Cada aspecto o indicador de una
informacion (producto, precio, coste, region, período) representa una dimensión
diferente
¿Que permite el análisis multidimensional? (4.12)
El analisis multidimensional permite a los usuarios visualizar los mismos datos desde
diferentes sitios, utilizando múltiples dimensiones. Cada característica de la información
de una aplicación de una empresa (productos, precios, artículos vendidos, año, región)
se representa por una dimensión diferente.
Que es un cubo OLAP (4.12.1)
Para funcionar, las aplicaciones OLAP utilizan un tipo de base de datos que posee la
peculiaridad de ser multidimensional, denominada comúnmente cubo OLAP. Un cubo
OLAP es una base de datos que posee varias dimensiones, que amplía las posibilidades
que hasta el momento ofrecían las conocidas hojas de cálculo. Mediante la
incorporación de estos vectores o cubos, se han ampliado las posibilidades de las bases
de datos relaciónales, permitiendo el procesamiento de importantes volúmenes de
información que, de lo contrario, serían imposibles de realizar. Cada una de las
dimensiones que posee la base de datos incorpora un campo determinado para un tipo
de dato específico, que luego podrá ser comparado con la información contenida en el
resto de las dimensiones para hacer posible la evaluación de la información realmente
relevante para una compañía.
¿Qué es un DataLake? (4.13)
Un Data Lake (Lago de Datos) es un repositorio de almacenamiento que contiene una
gran cantidad de datos en bruto en su formato original, incluyendo datos estructurados,
semiestructurados y no estructurados, que se guardan sin ningún procesamiento (raw
data). Los datos se guardan en bruto y sin ningún tipo de esquema; su estructura y los
requisitos de los datos no se definen hasta que
éstos se necesitan. En resumen, en un Data Lake se recogen todos los datos (en forma
directa o formato nativo) pero no se alteran, limpian o manipulan; su valor se mantiene
en bruto (nativo) y no se transforma previamente hasta su analisis y explotación. Los
datos se vierten por las organizaciones y se recuperan cuando es necesario y, en ese
instante, se procede a ordenarlos y dar una estructura que permite ana' lisis posteriores
Mencione 3 ventajas y 3 desventajas de los DataLakes (4.13.1)
Capacidades del Lago de Datos
1. Capturar y almacenar datos primarios a escala para reducir costes, sin procesamiento
(en bruto).
2. Soporte para almacenar todos los tipos de datos existentes en el mismo depósito y
sin necesidad de procesarlos.
3. Soporte para todo tipo de perfiles de usuarios, tanto para modelos empresariales
profesionales como para modelos de investigación.
16. ¿Qué es un Cubo OLAP? (4.12.1)
Para funcionar, las aplicaciones OLAP utilizan un tipo de base de datos que posee la
peculiaridad de ser multidimensional, denominada comúnmente cubo OLAP. Un cubo
OLAP es una base de datos que posee varias dimensiones, que amplía las posibilidades
que hasta el momento ofrecían las conocidas hojas de cálculo. Mediante la
incorporación de estos vectores o cubos, se han ampliado las posibilidades de las bases
de datos relaciónales, permitiendo el procesamiento de importantes volúmenes de
información que, de lo contrario, serían imposibles de realizar. Cada una de las
dimensiones que posee la base de datos incorpora un campo determinado para un tipo
de dato específico, que luego podrá ser comparado con la información contenida en el
resto de las dimensiones para hacer posible la evaluación de la información realmente
relevante para una compañía
17. Mencione 5 proveedores de herramientas de DWH
Amazon Web Services
Oracle
Microsoft
IBM
Terradata
18. ¿Qué es el modelo estrella?
Un esquema de estrella es un tipo de esquema de base de datos relacional que consta
de una sola tabla de hechos central rodeada de tablas de dimensiones.
En la siguiente figura se muestra un esquema de estrella con una sola tabla de hechos
y cuatro tablas de dimensiones. Un esquema de estrella puede tener cualquier número
de tablas de dimensiones. Las ramas situadas al final de los enlaces que conectan las
tablas indican una relación de muchos a uno entre la tabla de hechos y cada tabla de
dimensiones.
19. ¿Qué es el modelo copo de nieve?
En las bases de datos utilizadas en (data warehousing), un esquema en copo de nieve es
una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de
las dimensiones se implementa con más de una tabla de datos. La finalidad
es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la
redundancia de datos; pero tiene la contrapartida de generar peores rendimientos al
tener que crear más tablas de dimensiones y más relaciones entre las tablas (JOINs) lo
que tiene un impacto directo sobre el rendimiento.
20. ¿De que factores dependerá la frecuencia del proceso de ETL para tener la
información actualizada en las organizaciones?
ETL es un tipo de integración de datos que hace referencia a los tres pasos (extraer,
transformar, cargar) que se utilizan para mezclar datos de múltiples fuentes. Se utiliza a
menudo para construir un almacén de datos. Durante este proceso, los datos se toman
(extraen) de un sistema de origen, se convierten (transforman) en un formato que se
puede almacenar y se almacenan (cargan) en un data warehouse u otro sistema. Extraer,
cargar, transformar (ELT) es un enfoque alterno pero relacionado diseñado para
canalizar el procesamiento a la base de datos para mejorar el desempeño.