0% encontró este documento útil (0 votos)
235 vistas25 páginas

Big Data y Tecnologías NoSQL en MBA

Este documento presenta una introducción a los conceptos de Big Data e incluye las siguientes secciones: Plataformas de grandes bases de datos, Tecnologías NoSQL, Proyectos Hadoop, Almacenes de datos MPP, Métodos ETL y OLAP, Generación de informes y Tendencias tecnológicas. Explica los grandes volúmenes de datos no estructurados que se generan rápidamente de diversas fuentes y cómo las tecnologías de Big Data permiten el almacenamiento y análisis de estos datos a gran escala.

Cargado por

Ali Hdez Blanch
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
235 vistas25 páginas

Big Data y Tecnologías NoSQL en MBA

Este documento presenta una introducción a los conceptos de Big Data e incluye las siguientes secciones: Plataformas de grandes bases de datos, Tecnologías NoSQL, Proyectos Hadoop, Almacenes de datos MPP, Métodos ETL y OLAP, Generación de informes y Tendencias tecnológicas. Explica los grandes volúmenes de datos no estructurados que se generan rápidamente de diversas fuentes y cómo las tecnologías de Big Data permiten el almacenamiento y análisis de estos datos a gran escala.

Cargado por

Ali Hdez Blanch
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

MAESTRIA EN

ADMINISTRACIÓN DE
NEGOCIOS (MBA)

Profesora:
“ANALÍTICA DE DATOS”
MTIA. Claudia González
Ruvalcaba
Tabla de contenidos

3. Grandes Bases de Datos/Big Data 2


3.1. Plataformas de grandes bases de datos / big data 2
3.2. Tecnologías NoSQL para datos sin estructura 6
3.3. Proyectos Hadoop 7
3.4 Almacenes de datos de proceso paralelo masivo, MPP 12
3.5 Métodos de procesamiento 13
3.5.1 Método extraer, transformar y cargar / extract, transform and load, ETL 13
3.5.2 Método de procesamiento analítico en línea / online analitycal processing, OLAP 15
3.6 Generación de informes 18
3.7 Tendencias en el uso de tecnologías de información 19
3.7.1 Movilidad 20
[Link] y tecnologías basados en localización (LBS) 20
3.7.3 Uso de Internet 21
3.7.4 Tecnologías Verdes 22
[Link] en la nube / cloud computing 23
Bibliografía 24

1
3. Grandes Bases de Datos/Big Data

3.1. Plataformas de grandes bases de datos / big data

En estos últimos años, los ámbitos empresariales, académico, investigador y de la


administración han estado haciendo frente a la avalancha de datos con un nuevo concepto
que ha dado en denominarse Big Data.
Por la simple denominación usada se entiende que se trata de grandes volúmenes de
información que no es sencillo tratar con las herramientas y procedimientos tradicionales.
Encierra esta idea el tratamiento de información que hace evolucionar los métodos y
recursos habituales para hacerse cargo de grandes volúmenes de datos.
Analicemos primeramente en términos de bytes:

Gigabyte = 109 = 1,000,000,000


Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000

Estos se generan a gran velocidad (pasamos de datos en lotes/archivos a datos en


“streaming”) y además se añade una posible componente de complejidad y variabilidad en
el formato de esos datos (pasamos de datos estructurados a datos semi-estructurados o no
estructurados).
Todo ello requiere de técnicas y tecnologías específicas para su captura, almacenamiento,
distribución, gestión y análisis de la información. También recientemente se añade una
nueva “v” de valor: los datos por sí mismos, aun siendo muchos, no proporcionan valor a
una empresa u organización.
Además del gran volumen de información, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos
industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales
pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura,
humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida
para lograr obtener la información correcta en el momento preciso.

2
Es importante entender que las bases de datos convencionales son una parte importante y
relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se usa
en conjunto con la plataforma de Big Data.

¿Qué tipos de datos debo explotar?


Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe
analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es
el que se está tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificación nos ayudaría a entender mejor su representación, aunque es muy probable
que estas categorías puedan extenderse con el avance tecnológico.

Figura. Tipos de datos de Big Data.

1.- Web and Social Media: Incluye contenido web e información que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse
a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan
3
algún evento en particular (velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a través de redes
alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en
información significativa.
3.- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros
detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en
formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la
retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las agencias de investigación.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
información que guarda un call center al establecer una llamada telefónica, notas de voz,
correos electrónicos, documentos electrónicos, estudios médicos, etc.

Algunas Definiciones.

Algunas de las entidades y organizaciones han dado su propia definición de lo que


entienden por big data y puede ayudar a entender este concepto así se tiene:
O’Reilly Radar
“Se considera Big Data cuando el volumen de los datos se convierte en sí mismo parte del
problema a solventar”.
EMC/IDC
“Las tecnologías de Big Data describen un nuevo conjunto de tecnologías y arquitecturas,
diseñadas para extraer valor y beneficio de grandes volúmenes de datos con una amplia
variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar
información a alta velocidad y con un coste reducido”
McKinsey Global Institute (MGI),
“conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado,
gestión y análisis de las herramientas de base de datos”.
Big Data represents a new era of computing – an inflection point of opportunity where
data in any format may be explored and utilized for breakthrough insights - whether that
data is in-place, in-motion, or at-rest. IBM is uniquely positioned to help clients navigate
this transformation.

4
IBM, considera que hay “Big Data”, si el conjunto de información supera el terabyte de
información, es sensible al tiempo, y mezcla información estructurada con no estructurada.
Así, su enfoque trata de buscar la forma mejor de aprovechar estos datos, su gestión, su
combinación (datos estructurados con los que no lo son), la aplicación de algoritmos
predictivos de comportamiento, y con todo ello, permitir la toma de decisiones que añadan
valor al negocio
“In a 2001 research report, META Group (now Gartner) analyst Doug Laney defined data
growth challenges and opportunities as being three dimensional, i.e. increasing volume
(amount of data), velocity (speed of data in and out), and variety (range of data types and
sources) (3V).
In 2012, Gartner updated its definition as follows: “Big Data are high volume, high velocity,
and/or high variety information assets that require new forms of processing to enable
enhanced decision making, insight discovery and process optimization.”
Un reciente estudio realizado por la consultora IDC Digital Universe, revela que el tamaño
del universo digital alcanzó los 2,8 zettabytes (ZB) en 2012, y predice que para 2020 se
alcancen los 40 ZB, a partir de los datos generados por personas y dispositivos.
Las estimaciones indican que sólo un 20% del universo digital cuenta actualmente con
protecciones frente a robo digital, medidas de privacidad o cumplimiento de
reglamentaciones. Y el volumen de información va a crecer mucho más rápido que la
inversión en hardware, software, servicios, telecomunicaciones y personal (un 40% entre
2012 y 2020); como consecuencia, la inversión por gigabyte se reducirá en un 90%. Con
todo, se estima que el crecimiento de sectores emergentes del universo digital, (gestión de
almacenamiento, seguridad, Big Data, Cloud Computing) puede variar entre el 35% y el 65%.

5
3.2. Tecnologías NoSQL para datos sin estructura

NoSQL es un enfoque de las bases de datos que representa un cambio de los tradicionales
sistemas de gestión de bases de datos relacionales.
Para definir NoSQL, es útil comenzar describiendo SQL, que es un lenguaje de consulta
utilizado por las BBDD relacionales.
Las bases de datos relacionales se basan en tablas, columnas, filas o esquemas para
organizar y recuperar datos.
Por el contrario, las bases de datos NoSQL no se basan en estas estructuras y utilizan
modelos de datos más flexibles, los tipos comunes de datos no estructurados incluyen:
datos de usuario y sesión; Chat, mensajería y datos de registro, datos de series de tiempo
tales y datos de dispositivos además de objetos grandes como video e imágenes

Tipos de base de datos NoSQL


Se han creado varias variedades de bases de datos NoSQL para soportar necesidades
específicas y casos de uso. Éstos se dividen en cuatro categorías principales:
Almacenes de datos de valores clave: las bases de datos NoSQL de valor-clave hacen
hincapié en la simplicidad y son muy útiles para acelerar una aplicación que admita el
procesamiento de alta velocidad de lectura y escritura de datos no transaccionales.
Almacenes de documentos: Las bases de datos de documentos suelen almacenar
documentos JSON, XML y BSON. Son similares a los almacenes de valores clave, pero en
este caso, un valor es un solo documento que almacena todos los datos relacionados con
una clave específica.
Almacenes de columnas anchas: Las bases de datos NoSQL de columnas anchas almacenan
datos en tablas con filas y columnas similares a las BBDD relacionales, pero los nombres y
los formatos de las columnas pueden variar de fila a fila en la tabla. Las columnas de
columnas anchas agrupan columnas de datos relacionados juntos.
Almacenes de grafos: una base de datos de grafos utiliza estructuras de grafos para
almacenar, correlacionar y consultar relaciones. Proporcionan una adyacencia libre de
índice, de modo que los elementos adyacentes se unen entre sí sin usar un índice.
Beneficios de NoSQL
Las bases de datos NoSQL ofrecen a las empresas ventajas importantes sobre el RDBMS
tradicional, entre ellas:

6
✓ Escalabilidad: las bases de datos NoSQL utilizan una metodología de escala
horizontal que facilita la adición o reducción de la capacidad de forma rápida y sin
interrupciones con el hardware de los productos básicos.
✓ Rendimiento: Simplemente agregando recursos dinámicamente, las empresas
pueden aumentar el rendimiento con las bases de datos NoSQL. Esto permite a las
organizaciones continuar ofreciendo experiencias de usuario rápidas y confiables
con un retorno de inversión previsible.
✓ Alta disponibilidad: las bases de datos NoSQL generalmente están diseñadas para
garantizar la alta disponibilidad y evitar la complejidad que viene con una
arquitectura típica que se basa en nodos primarios y secundarios.
✓ Disponibilidad: Al replicar automáticamente los datos a través de múltiples
servidores, centros de datos o recursos de la nube, las bases de datos NoSQL
distribuidas pueden minimizar la latencia y garantizar una experiencia de aplicación
consistente dondequiera que se encuentren los usuarios.

3.3. Proyectos Hadoop

Componentes de una Plataforma Big Data


Las organizaciones han atacado la problemática de grandes volúmenes de datos desde
diferentes ángulos. Todas esas montañas de información han generado un costo potencial
al no descubrir el gran valor asociado. Desde luego, el ángulo correcto que actualmente
tiene el liderazgo en términos de popularidad para analizar enormes cantidades de
información es la plataforma de código abierto Hadoop.
Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de
programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para
manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el
procesamiento.
Hadoop está compuesto de tres piezas:
1. Hadoop Distributed File System (HDFS),
2. Hadoop MapReduce
3. Hadoop Common.

Hadoop Distributed File System(HDFS)


Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y
distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser

7
ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en
un diferente rack para lograr redundancia.

Figura. Ejemplo de HDFS

Hadoop MapReduce
MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto
de datos y lo convierte en otro conjunto, donde los elementos individuales son separados
en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de
entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase
intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina
que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico.

La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.

8
Figura. Ejemplo de MapReduce

Hadoop Common
Hadoop Common Components son un conjunto de librerías que soportan varios
subproyectos de Hadoop. Además de estos tres componentes principales de Hadoop,
existen otros proyectos relacionados los cuales son definidos a continuación:
Avro
Es un proyecto de Apache que provee servicios de serialización. Cuando se guardan datos
en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este
modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el
esquema esta definido dentro del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes volúmenes de
datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de
su plataforma.
Chukwa
Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para
desplegar los resultados del análisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia
alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades
principales: sources, decorators y sinks.

9
Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en
específico y un decorator es una operación dentro del flujo de datos que transforma esa
información de alguna manera, como por ejemplo comprimir o descomprimir los datos o
alguna otra operación en particular sobre los mismos.
HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase
no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene
filas y columnas como una base de datos relacional. HBase permite que muchos atributos
sean agrupados llamándolos familias de columnas, de tal manera que los elementos de una
familia de columnas son almacenados en un solo conjunto. Eso es distinto a las bases de
datos relacionales orientadas a filas, donde todas las columnas de una fila dada son
almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde Noviembre del
2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes conjuntos de
datos que se encuentran almacenados en un ambiente distribuido. Hive tiene definido un
lenguaje similar a SQL llamado Hive Query Language(HQL), estas sentencias HQL son
separadas por un servicio de Hive y son enviadas a procesos MapReduce ejecutados en el
cluster de Hadoop.
Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for Javascript Object
Notation (JSON) es un lenguaje funcional y declarativo que permite la explotación de datos
en formato JSON diseñado para procesar grandes volúmenes de información. Para explotar
el paralelismo, Jaql reescribe los queries de alto nivel (cuando es necesario) en queries de
"bajo nivel" para distribuirlos como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para reducir
el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql posee de una
infraestructura flexible para administrar y analizar datos semiestructurados como XML,
archivos CSV, archivos planos, datos relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar búsquedas sobre textos. Lucene
provee de librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado
en la implementación de motores de búsqueda (aunque hay que considerar que no tiene
funciones de "crawling" ni análisis de documentos HTML ya incorporadas).

10
El concepto a nivel de arquitectura de Lucene es simple, básicamente los documentos
(document) son dividos en campos de texto (fields) y se genera un índice sobre estos
campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar
búsquedas rápidamente independientemente del formato del archivo, ya sean PDFs,
documentos HTML, etc.
Oozie
Existen varios procesos que son ejecutados en distintos momentos los cuales necesitan ser
orquestados para satisfacer las necesidades de tan complejo análisis de información.
Oozie es un proyecto de código abierto que simplifica los flujos de trabajo y la coordinación
entre cada uno de los procesos. Permite que el usuario pueda definir acciones y las
dependencias entre dichas acciones.
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop enfocarse más
en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los programas
MapReduce. Tal como su nombre lo indica al igual que cualquier cerdo que come cualquier
cosa, el lenguaje PigLatin fue diseñado para manejar cualquier tipo de dato y Pig es el
ambiente de ejecución donde estos programas son ejecutados, de manera muy similar a la
relación entre la máquina virtual de Java (JVM) y una aplicación Java.
ZooKeeper
ZooKeeper es otro proyecto de código abierto de Apache que provee de una infraestructura
centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de
que los procesos a través de un cluster sean serializados o sincronizados.

11
3.4 Almacenes de datos de proceso paralelo masivo, MPP

En un sistema de proceso paralelo masivo (MPP), los sistemas se alojan físicamente en el


mismo chasis, como se muestra en el diagrama siguiente:

Figura. Sistema MPP (proceso paralelo masivo)

En un entorno MPP, se mejora el rendimiento ya que no es necesario compartir recursos


entre sistemas físicos. Para escalar el sistema, puede añadir sistemas y los recursos de
memoria y disco asociados.
En un sistema MMP, generalmente un sistema de archivos se comparte en la red. En esta
configuración, los archivos de programa se pueden compartir en lugar de instalarlos en
nodos individuales del sistema.

12
3.5 Métodos de procesamiento
3.5.1 Método extraer, transformar y cargar / extract, transform and load, ETL

ETL (Extracción, Transformación y Carga), es una de las tecnologías de integración de


datos que se usa en los proyectos de implantación de Business Intelligence.
En el contexto de la inteligencia de negocio, las herramientas ETL han sido la opción usual
para alimentar el data warehouse. La funcionalidad básica de estas herramientas está
compuesta por:
✓ Gestión y administración de servicios.
✓ Extracción de datos.
✓ Transformación de datos.
✓ Carga de datos.
✓ Gestión de datos.

Figura. Extract, Transform & Load (ETL) Processing

Se entiende por integración de datos al conjunto de aplicaciones, productos, técnicas y


tecnologías que permiten una visión única consistente de nuestros datos de negocio.

13
ETL Extract, Transform and Load:
▪ Permite extraer datos del entorno origen, transformarlos según nuestras
necesidades de negocio para integración de datos y cargar estos datos en los
entornos destino.
▪ Mueven o transportan datos entre entornos origen y destino.
▪ Documentan cómo estos datos son transformados (si lo son) entre el origen y el
destino almacenando esta información en un catálogo propio de metadatos;
intercambian estos metadatos con otras aplicaciones que puedan requerirlos y
administran todas las ejecuciones y procesos de la ETL:

o planificación del transporte de datos,


o log de errores, log de cambios y estadísticas asociadas a los procesos de
movimiento de datos.
Este tipo de herramientas suelen tener una interfaz de usuario de tipo GUI y permiten
diseñar, administrar y controlar cada uno de los procesos del entorno ETL.

14
3.5.2 Método de procesamiento analítico en línea / online analitycal processing, OLAP

Es bien sabido que el concepto de Business Intelligence engloba múltiples conceptos. Uno
de los más importantes es el concepto OLAP (On-Line Analytical Processing), acuñado por
Edgar F. Codd. Una manera sencilla de explicar este concepto es decir que es una tecnología
que permite un análisis multidimensional1 a través de tablas matriciales o pivotantes.
A pesar de ser una tecnología que ya tiene más de cuatro décadas, sus características y su
evolución han provocado que la gran mayoría de soluciones del mercado incluya un motor
OLAP.

Se entiende por OLAP, o proceso analítico en línea, al método ágil y flexible para organizar
datos, especialmente metadatos, sobre un objeto o jerarquía de objetos como en un
sistema u organización multidimensional, y cuyo objetivo es recuperar y manipular datos y
combinaciones de los mismos a través de consultas o incluso informes.

Figura . OLAP.

Una herramienta OLAP está formada por un motor y un visor. El visor OLAP es una interfaz
que permite consultar, manipular, reordenar y filtrar datos existentes en una estructura
OLAP mediante una interfaz gráfica de usuario que dispone funciones de consulta MDX2 y
otras.
Imaginemos que queremos responder a la siguiente pregunta: ¿cuál es el margen de
beneficios de la venta de bicicletas para febrero de 2007? Si tenemos un cubo, como el de
ejemplo, formado por el tiempo, los productos y las medidas, la respuesta es la intersección
entre los diferentes elementos.

15
Cabe observar que una estructura de esta forma permite consultas mucho más completas,
como por ejemplo comparar el margen de beneficios de febrero y mayo, entre diferentes
productos, etc.
Además, el visor OLAP proporciona libertad a los usuarios finales para realizar dichas
consultas de forma independiente al departamento de IT. Es necesario comentar:
❖ Las herramientas OLAP de los diferentes fabricantes, si bien son similares, no son
completamente iguales dado que presentan diferentes especificaciones del modelo
teórico.
❖ La última tendencia en OLAP es la tecnología in-memory.
❖ Las soluciones open source OLAP han sido las últimas a añadirse a la lista y, por
ahora, no tienen tanta variedad como su contrapartida propietaria.
❖ En el mercado open source OLAP sólo hay dos soluciones actualmente: el motor
ROLAP Mondrian y el motor MOLAP PALO.

16
Existen diferentes tipos de OLAP, que principalmente difieren en cómo se guardan los
datos:
MOLAP (Multidimensional OLAP)
Es la forma clásica de OLAP y frecuentemente es referida con dicho acrónimo. MOLAP utiliza
estructuras de bases de datos generalmente optimizadas para la recuperación de los
mismos. Es lo que se conoce como bases de datos multidimensionales (o, más
coloquialmente, cubos). En definitiva, se crea un archivo que contiene todas las posibles
consultas precalculadas. A diferencia de las bases de datos relacionales, estas formas de
almacenaje están optimizadas para la velocidad de cálculo.
ROLAP (Relational OLAP)
Trabaja directamente con las bases de datos relacionales, que almacenan los datos base y
las tablas dimensionales como tablas relacionales mientras se crean nuevas tablas para
guardar la información agregada.
HOLAP (Hybrid OLAP)
No hay acuerdo claro en la industria en cuanto a qué constituye el OLAP híbrido,
exceptuando el hecho de que es una base de datos en la que los datos se dividen en
almacenaje relacional y multidimensional. Por ejemplo, para algunos vendedores, HOLAP
consiste en utilizar las tablas relacionales para guardar las cantidades más grandes de datos
detallados, y utiliza el almacenaje multidimensional para algunos aspectos de cantidades
más pequeñas de datos menos detallados o agregados.
DOLAP (Desktop OLAP)
Es un caso particular de OLAP ya que está orientado a equipos de escritorio. Consiste en
obtener la información necesaria desde la base de datos relacional y guardarla en el
escritorio.
Las consultas y los análisis son realizados contra los datos guardados en el escritorio.
In-memory OLAP
Es un enfoque por el que muchos nuevos fabricantes están optando. Consiste en que la
estructura dimensional se genera sólo a nivel de memoria y se guarda el dato original en
algún formato que potencia su despliegue de esta forma (por ejemplo, comprimido o
mediante una base de datos de lógica asociativa). En este último punto es donde cada
fabricante pone su énfasis.

Todos los tipos son, sin embargo, propensos a la explosión de la base de datos. Éste es un
fenómeno que causa la cantidad extensa de espacio de almacenaje que es utilizado por las
bases de datos OLAP cuando se resuelven ciertas, pero frecuentes, condiciones: alto
número de dimensiones, de resultados calculados de antemano y de datos
multidimensionales escasos.

17
3.6 Generación de informes

Las herramientas de informes (o también llamadas de reporting) permiten responder


principalmente a la pregunta de ¿qué pasó? Dado que ésa es la primera pregunta que se
formulan los usuarios de negocio, todas las soluciones de Business Intelligence del mercado
incluyen un motor de reporting.
Definamos primero qué es un informe:
Un informe es un documento a través del cual se presentan los resultados de uno o varios
procesos de negocio. Suele contener texto acompañado de elementos como tablas o
gráficos para agilizar la compresión de la información presentada.
Los informes están destinados a usuarios de negocio que tienen la necesidad de conocer la
información consolidada y agregada para la toma de decisiones.
Ahora podemos definir formalmente las herramientas de reporting:
Se entiende por plataforma de reporting aquellas soluciones que permiten diseñar y
gestionar (distribuir, planificar y administrar) informes en el contexto de una organización
o en una de sus áreas.

➢ Estáticos: tienen un formato preestablecido inamovible.


➢ Paramétricos: presentan parámetros de entrada y permiten múltiples consultas.
➢ Ad-hoc: son creados por el usuario final a partir de la capa de metadatos que
permite usar el lenguaje de negocio propio.
Elementos de un informe, principalmente un informe puede estar formado por:
• Texto: que describe el estado del proceso de negocio o proporciona las
descripciones necesarias para entender el resto de los elementos del informe.
• Tablas: este elemento tiene forma de matriz y permite presentar una gran
cantidad de información.
• Gráficos: este elemento persigue el objetivo de mostrar información con un alto
impacto visual que sirva para obtener información agregada o sumarizada con
mucha más rapidez que a través de tablas.
• Mapas: este elemento permite mostrar información geolocalizada.
• Métricas: que permiten conocer cuantitativamente el estado de un proceso de
negocio.

18
• Alertas visuales y automáticas: consiste en avisos del cambio de estado de
información que pueden estar formadas por elementos gráficos como fechas o
colores resultados y que deben estar automatizadas en función de reglas de
negocio encapsuladas en el cuadro de mando.

3.7 Tendencias en el uso de tecnologías de información

Las Tecnologías de la Información serán cruciales para dar agilidad a las organizaciones y
ayudar a los negocios a ser más productivos y competitivos
Las organizaciones que pertenecen al sector de las Tecnologías de Información y
Comunicación (TIC), sin importar cuál sea el segmento de mercado, siempre deben de estar
atentas a las principales tendencias tecnológicas y a su progreso, ya sea que impacten
directamente al negocio o al usuario final, esto permite ofrecer a los clientes herramientas
nuevas o mejoradas que responden justo a lo que necesitan y cuando lo necesitan.
Esto exige estar siempre atentos porque los cambios en el sector TIC y en el actual entorno
de negocios se dan de manera muy rápida, y responder ágil y adecuadamente, y ayudar a
nuestros clientes a que también lo hagan con los suyos se ha vuelto un asunto crucial para
ser más competitivos y tener un diferenciador de negocio. Es precisamente aquí donde las
TIC y el negocio hacen “clic” con la idea de alcanzar objetivos de negocio específicos, claros
y definidos.

19
3.7.1 Movilidad

Los entornos empresariales están cambiando radicalmente con la consumerización de los


dispositivos móviles como smartphones y tabletas, por lo que las compañías requieren
proporcionar las mejores condiciones tecnológicas para que sus empleados, socios y todos
aquellos vinculados con el negocio desempeñen sus actividades desde lugares remotos, en
un dispositivo de su propia elección y con acceso a la información que ellos necesitan. La
clave es contar con una solución integral end to end que hará que su empresa sea mucho
más ágil, y su fuerza de trabajo más productiva y eficiente, lo que se reflejará en mayor
compromiso del cliente.

Se pronostica que, en los próximos años, el 45% de las


compañías en Latinoamérica alineará sus esfuerzos de TI y
de negocio hacia una estrategia definitiva de movilidad,
pero agrega que mientras la movilidad se había centrado
en las personas y los dispositivos, el próximo paso será
alinear los procesos organizacionales y el ecosistema de la
industria con los beneficios de una organización.

3.7.2. Servicios y tecnologías basados en localización (LBS)

Se denomina servicios basados en localización (LBS, Location Based Service) a aquellos


servicios que utilizan datos de ubicación del usuario para controlar sus características. Los
LBS utilizan información sobre la posición geográfica del dispositivo móvil del usuario y se
pueden utilizar en una variedad de contextos, tales como salud, entretenimiento, trabajo,
vida personal, información, comercio, publicidad o seguridad, y en general, cualquier
actividad donde la localización pueda aprovecharse para personalizar y optimizar el servicio.

Con los servicios basados en localización (LBS, Location


Based Services, Servicios basados en la localización)
también conocidos como LDIS (Location Dependent
Information Services, Servicios de información
dependientes de la localización) o simplemente servicios de
localización, se busca ofrecer un servicio más personalizado
a los usuarios, teniendo en cuenta ubicación geográfica.

20
Un servicio basado en ubicación (LBS) es un servicio de información que utiliza datos de
ubicación del usuario para controlar sus prestaciones y características. Para hacer esto
posible se usan diferentes tecnologías relacionadas con la información geográfica, tales
como sistemas GIS (Geographic Information System, Sistema de información geográfica),
GPS, A-GPS, Wi-Fi o localización GSM proporcionada por los operadores de telefonía, entre
otras.
Algunos de estos servicios también emplean los diferentes dispositivos tecnológicos de uso
personal que se comercian en la actualidad, como son las tabletas y los teléfonos
inteligentes, usando además la información de las personas en las diferentes redes sociales
y demás datos que hacen públicos a través de Internet.

3.7.3 Uso de Internet

Internet y la red mundial (World Wide Web) han crecido en menos de cinco años a un ritmo
sin precedentes en la historia de las comunicaciones: ningún adelanto previo había invadido
tan rápidamente las conciencias y había asegurado tan amplia recepción pública.

Las llamadas nuevas tecnologías o TIC (Tecnologías de la


Información y la Comunicación) han irrumpido en
nuestras vidas gracias a Internet. Cuando se habla de las
nuevas tecnologías aplicadas a la medicina, la educación,
el comercio o el ocio, se está haciendo referencia, en
buena medida, al uso de Internet en cualquiera de estas
áreas.

Hoy día están vinculadas treinta millones de computadoras, y decenas de millones de


usuarios en más de cien países. Al ritmo actual de crecimiento, muy pronto estarán
conectados cien millones de equipos. Todo individuo que "navegue" en la red, es decir, que
busque sitios específicos para obtener información distinta, puede sentirse abrumado por
semejante avalancha. Sin embargo, dos aspectos cruciales deben destacarse.
El primero es que Internet, si bien abarca al mundo, está limitado de hecho a aquellos países
y regiones que cuentan con una infraestructura de apoyo, es decir, un sistema telefónico
moderno. Casi en toda África y otras regiones del llamado tercer mundo, así como en la
mayor parte de Europa Oriental y en Siberia, el sistema telefónico adecuado es restringido
o no existe.

21
El segundo aspecto es que, por lo pronto, Internet es un medio apartado de los sistemas
televisivo y telefónico, aunque la integración de los diferentes medios es un proyecto
tecnológico y comercial previsto por muchas compañías.

3.7.4 Tecnologías Verdes

Las tecnologías verdes, también denominadas tecnologías no contaminantes o ecológicas,


son aquellos bienes y servicios que mejoran la calidad del aire, del agua, del suelo o que
buscan soluciones a los problemas relacionados con los residuos o el ruido. Estas
tecnologías pueden ser muy diferentes y abarcan desde sistemas de alta tecnología,
sumamente complejos y costosos, hasta soluciones sencillas.

Se define a las tecnologías verdes como aquellos


sistemas y servicios que respetan el medio
ambiente, que son asequibles, adaptables y
aplicables para los países en desarrollo – o que
estos países puedan exportar.

Objetivos de las Tecnologías Verdes.


▪ Facilitar la expansión del comercio, los vínculos entre las empresas y las asociaciones
en todo lo relativo a las tecnologías verdes
▪ Reforzar la competitividad de las tecnologías verdes, con especial hincapié en las
PYME de países en desarrollo, mediante la identificación de oportunidades para
exportar y la promoción de sus soluciones tecnológicas no contaminantes en los
mercados internacionales
▪ Mejorar las instituciones de apoyo al comercio (IAC) para que éstas, a su vez, apoyen
mejor el desarrollo del comercio de tecnologías verdes
▪ Facilitar el acceso a la información sobre los mercados y las oportunidades de
tecnologías verdes
▪ Potenciar el diálogo entre los sectores público y privado sobre el desarrollo del
comercio de exportación de tecnologías verdes

22
3.7.5. Procesamiento en la nube / cloud computing

La adopción de soluciones de Cloud Computing ha demostrado muy buenos resultados para


las organizaciones de TI y para los negocios. Hoy, tanto grandes como medianas empresas
están “subiéndose a este tren” pues están completamente fascinadas con la promesa de
Cloud de mejorar significativamente la agilidad del negocio y la infraestructura de TI. Una
solución Cloud brinda velocidad para mover las aplicaciones, seguridad contra amenazas y
ahorro de costos al optimizar los recursos de la infraestructura. Mientras mejor sea la
capacidad de una organización de planear, desplegar y ejecutar su estrategia de Cloud, más
rápido alcanzará sus objetivos de negocio.

¿Qué dicen los analistas? De acuerdo con IDC, los


servicios Cloud ahora son parte del portafolio de la
mayoría de los proveedores de TIC, ya que esta
tecnología se ha convertido en la plataforma de
elección para cualquier nueva implementación de TI;
por ello, se prevé que las inversiones en los servicios de
nube pública y privada hospedada remotamente
crecerán 40% en Latinoamérica.

23
Bibliografía

Joyanes Aguilar Luis, “Big Data Análisis de grandes volúmenes de datos en la Web,”
2013 Alfa Omega Grupo Editor.

Gemma Muñoz, Tristán Elósegui, El arte de medir, “Manual de analítica web”


2014, Profit Editorial.

Carrillo, J. (2017) Big data en los entornos de defensa y seguridad, PFD recuperado de:
[Link]
moderna

Barranco, R. (2012) ¿Qué es Big Data?, PFD recuperado de:


[Link]

24

También podría gustarte