DIMENSIONES
DEL BIG DATA
Autor: Sebastián Maidana
1
ÍNDICE
1. LAS DIMENSIONES “V” DEL BIG DATA................................................................................................................ 3
1.1 VOLUMEN: DATOS A ESCALA............................................................................................................................. 6
1.2 VARIEDAD: DATOS EN MUCHAS FORMAS.....................................................................................................7
1.2.1 DATOS ESTRUCTURADOS: STRUCTURED DATA........................................................................8
1.2.2 DATOS NO ESTRUCTURADOS: UNSTRUCTURED DATA..........................................................9
1.2.3 DATOS SEMIESTRUCTURADOS: SEMISTRUCTURED DATA................................................ 11
1.3 VELOCIDAD: DATOS EN MOVIMIENTO........................................................................................................ 12
1.4 VERACIDAD: INCERTIDUMBRE DE LOS DATOS........................................................................................ 13
1.5 VALOR: DATOS RENTABLES.............................................................................................................................. 15
1.6 OTRAS “V” A TENER EN CUENTA.................................................................................................................... 16
2. EN CONCLUSIÓN, ¿QUÉ ES BIG DATA?............................................................................................................ 17
BIBLIOGRAFÍA.............................................................................................................................................................. 18
2
DIMENSIONES
DEL BIG DATA
1. LAS DIMENSIONES “V” DEL BIG DATA
El Big Data suele definirse a través de cinco V: volumen, velocidad, variedad, veracidad y valor.
La más importante de ellas es la última, ya que les otorga sentido al resto y permite identificar
que los datos masivos son la solución al garantizar el ROI (Strategy Big Data, s.f.). El consenso
sobre el uso de estos cinco conceptos como descriptores fue resultado de una evolución, que
comenzó con el origen mismo del término Big Data:
El origen del término Big Data puede remontarse a 2001 cuando
el analista Doug Laney (actualmente en Gartner) clasificó el reto in-
herente al crecimiento de los datos en tres dimensiones, que llamó
las 3 v’s: velocidad, variedad y volumen. Desde entonces y hasta la
fecha, el término ha evolucionado, y los expertos en computación
y los analistas de datos asocian Big Data con 5 v’s: volumen, veloci-
dad, variedad, veracidad y valor. (El Kutby, 2017)
Recuerda
El Big Data permite estar preparado para manejar el volumen de
datos que el negocio gestionará en los próximos años, con diferen-
tes fuentes, tipos y estructuras, y reaccionar a tiempo sólo con un
único objetivo: crear valor (Strategy Big Data, s.f.)
En la literatura reciente sobre el tema, se ha llegado a hablar de siete V1 que describen al Big
Data: a las cinco mencionadas anteriormente, se agregan viabilidad y visualización. Todas ellas son
reflejadas en la siguiente infografía.
Figura Nº 1: Siete “V” del Big Data
¹ Este número no es, bajo ningún punto de vista, fijo, ya que diferentes investigadores han identi-
ficado más de siete dimensiones en el Big Data. A las ya mencionadas, pueden agregarse viscosi-
3
dad, viralidad, variabilidad y verificación, entre otras tantas.
4
Fuente: Instituto de Ingeniería del Conocimiento (2016). Las 7V del Big Data [Figura]
La descripción del Big Data se encuentra, como puede observarse, en un estado de evolución
permanente. Por tal motivo, a los efectos del presente material, se hará hincapié en las cinco “V”
señaladas inicialmente (ver Figura Nº 2), puesto que son las que predominan en la mayoría de
los enfoques que analizan esta problemática. No obstante, se incluirá al final del documento un
apartado para definir someramente las demás “V” antes mencionadas.
Figura Nº 2: Dimensiones del Big Data
5
Fuente: adaptación de Schroeck, Shockley, Smart, Romero-Morales y Tufano (2012). Cuatro dimensio-
nes de big data [Figura].
1.1 VOLUMEN: DATOS A ESCALA
De acuerdo con Michael Schroeck, Rebecca Shockley, Janet Smart, Dolores Romero-Mora-
les y Peter Tufano (2012), el volumen es la característica que se asocia al Big Data con mayor
frecuencia. El mismo, según los autores, “hace referencia a las cantidades masivas de datos que las
organizaciones intentan aprovechar para mejorar la toma de decisiones en toda la empresa” (p. 4). Sin
embargo, “hay que tener en cuenta que muchos de esos datos no serán útiles porque no tendrán cali-
dad o porque no forman parte de nuestra estrategia; con todo, el volumen de información es enorme,
continuo y creciente” (Asensi Viana, y otros, 2017, p. 27).
Cabe destacar que se estima que el 90% de los datos que se encuentran disponibles en la actua-
lidad se han generado en los últimos años, señala la compañía Strategy Big Data (s.f.). Esto lleva
a pensar en la necesidad de prepararse para la gestión de volúmenes de datos que deberán de
medirse en teras y petabytes como unidades normales del día a día. Schroeck, Shockley, Smart,
Romero-Morales y Tufano realizan una importante aclaración respecto de este tema:
Los volúmenes de datos continúan aumentado a un ritmo sin pre-
cedentes. No obstante, lo que constituye un volumen verdadera-
mente “alto” varía en función del sector e incluso de la ubicación
geográfica y es más pequeño que los petabytes y zetabytes a los
que a menudo se hace referencia. (p. 4)
6
Importante
Tiempo atrás los datos eran generados, fundamentalmente, por
las personas e introducidos mediante un teclado. Sin embargo, en
la actualidad, estos son producidos de modo automático por má-
quinas, sensores, redes, interacciones sociales, etcétera. Esto ha
provocado que en sólo diez años se multiplicara por más de 300
veces el volumen de datos generados a diario. Ello ha supuesto la
aparición de nuevos retos técnicos y analíticos (De Castro, 2015).
Figura Nº 3: El volumen de datos en números
Fuente: adaptación de (IBM, s.f., citado por Carrero, 2017). Las cuatro V de Big Data [Figura].
Existen plataformas para manejar el análisis masivo de datos, bien conocidas por todos. Sin em-
bargo, destaca Strategy Big Data, es muy importante resaltar que la aparición de bases de datos
verticales, por ejemplo, In-Memory y NoSQL, y una variada oferta de servicios Cloud, así como
las mejoras de los proveedores tradicionales, hacen que las primeras no sean la única solución a
esta “V”.
1.2 VARIEDAD: DATOS EN MUCHAS FORMAS
La variedad se relaciona con la gestión de la complejidad de múltiples tipos de datos (estructu-
rados, semiestructurados y no estructurados), provenientes de un amplio abanico de fuentes
de información tanto tradicionales como no tradicionales, internas como externas a la empresa.
7
Con la profusión de sensores, dispositivos inteligentes y tecnologías de colaboración social, la in-
formación generada se presenta en innumerables formatos, por ejemplo, texto, datos web, tuits,
datos de sensores, audio, vídeo, secuencias de clic y archivos de registro, entre otros (Schroeck,
Shockley, Smart, Romero-Morales, & Tufano, 2012).
Figura Nº 4: Diversidad de datos en la actualidad
80%
del crecimiento de los
datos ha sido en videos,
imágenes y documentos.
90%
de los datos generados
son “no estructurados”
Eso incluye tuits, fotos,
historial de compras de
Variedad clientes y llamadas de
Diversidad de datos servicio al consumidor.
Fuente: elaboración propia a partir de una adaptación de IBM (s.f.). Extracting business value from the
4 V’s of big data [Figura].
Importante
El origen, la naturaleza y el uso de los datos definen su estructura
de almacenamiento o ausencia de la misma (no estructurados).
Por ello, deben de utilizarse todas las fuentes de datos disponibles
para mejorar la competitividad y ser más preciso en el análisis
(Strategy Big Data, s.f.).
1.2.1 DATOS ESTRUCTURADOS: STRUCTURED DATA
Los datos estructurados tienen perfectamente definido su formato, longitud y tamaño, explica
Diego Calvo (2017). Los mismos, tal como señala el autor, se almacenan en formatos tales como
tablas u hojas de cálculo, o bien en bases de datos relacionales. Respecto de estas últimas se
destaca lo siguiente:
8
El modelo relacional describe los datos mediante el uso de un
formato tabular estándar. En una base de datos estructurada de
acuerdo con este modelo, todos los elementos de datos se colocan
en tablas bidimensionales llamadas relaciones, que constituyen el
equivalente lógico de los archivos. Las tablas de las bases de datos
relacionales organizan los datos en renglones y columnas, es decir,
simplifican su acceso y manejo. […]
Entre las bases de datos sustentadas en el modelo relacional se
encuentran la DB2, de IBM, Oracle, Sybase, Microsoft SQL Server,
Microsoft Access, y MySQL. […]
En el modelo relacional, cada renglón (registro) de una tabla repre-
senta una entidad de datos, mientras que cada columna (campo)
representa atributos, cada uno de los cuales sólo puede aceptar
ciertos valores, que cuando están permitidos, se llaman dominio.
El dominio de un atributo en particular indica qué valores pueden
colocarse en cada columna de la tabla relacional. (Stair & Reynolds,
2010, p. 189)
Figura Nº 5: Ejemplo de datos estructurados
Fuente: Calvo (2017). Ejemplo de datos estructurados [Figura].
1.2.2 DATOS NO ESTRUCTURADOS: UNSTRUCTURED DATA
Los datos no estructurados, según Calvo, se caracterizan por no tener un formato específico y se
almacenan en múltiples formatos como documentos PDF o Word, correos electrónicos, ficheros
multimedia de imagen, audio o video, entre otros. Juan José Camargo Vega, Jonathan Felipe
Camargo Ortega y Luis Joyanes los explican en profundidad:
Son aquellos que no pueden ser normalizados, no tienen tipos de-
finidos ni están organizados bajo algún patrón; tampoco son alma-
cenados de manera relacional, o con base jerárquica de datos, de-
bido a que no son un tipo de dato predefinido; es decir, no tienen un
9
formato normalizado determinado. Sin embargo, los datos deben
poder ser organizados, clasificados, almacenados, eliminados, bus-
cados de alguna forma. [...]
En este caso de datos no estructurados, no tienen un identificador
definido, no se puede reconocer su estado físico ni lógico; tampoco
se puede identificar su tipo o clase; su tamaño no se puede encajar
en una tabla predefinida, es el caso de los datos contenidos en una
página web. Se puede tener el siguiente ejemplo: “Pedro nació el día
24 de noviembre de 1978, y el 20 de septiembre se graduó Julio en la
universidad”. Como se puede observar, no es tan fácil la administra-
ción de este tipo de información, no estructurada.
Lo que sí se puede respecto a los datos no estructurados es hacer
uso de los metadatos, es decir, usar datos que puedan describir
otros datos. Por ejemplo, en una biblioteca se tiene en fichas o en
un sistema de información datos de los libros como: autor, título,
editorial, ISBN y tema, entre otros. Lo anterior con el fin de hallar
con facilidad un determinado libro; esta es la forma como los meta-
datos ayudan a buscar datos. (2015 p. 73)
Figura Nº 6: Ejemplo de datos no estructurados
10
Fuente: Calvo (2017). Ejemplo de datos no estructurados [Figura].
1.2.3 DATOS SEMIESTRUCTURADOS: SEMISTRUCTURED DATA
Los datos semiestructurados son una mezcla de los dos tipos de datos mencionados anterior-
mente. Si bien no presentan una estructura perfectamente definida como los primeros, sí cuen-
tan con una organización definida en sus metadatos, donde describen los objetos y sus relacio-
nes, y que en algunos casos están aceptados por convención, por ejemplo, los formatos HTML,
XML o JSON (Calvo, 2017).
Importante
“Estos datos no tienen un formato definido, lo que tienen son etiquetas
que facilitan separar un dato de otro. Un dato de estos se lee con un
conjunto de reglas de cierto nivel de complejidad”, explican Camargo
Vega, Camargo Ortega y Joyanes (2015, p. 71).
Figura Nº 7: Ejemplo de datos semiestructurados
Fuente: Calvo (2017). Ejemplo de datos semiestructurados [Figura].
11
Camargo Vega, Camargo Ortega y Joyanes identifican cuatro características principales en esta
clase de datos, algunas de las cuales “se presentan debido a que cada quien publica sus datos a su
manera, y esto se presenta en internet” (p. 73). Las cualidades destacadas por los autores son:
- Son datos irregulares, que pueden no contar con un esquema particular.
- Se pueden presentar datos incompletos.
- Sus componentes pueden cambiar.
- Pueden aparecer nuevos datos cuya estructura nada tiene que ver con la ya exis-
tente.
1.3 VELOCIDAD: DATOS EN MOVIMIENTO
Más importante que la reacción a la capacidad de almacenamiento, destaca Strategy Big Data,
es tener capacidad para procesar, analizar y dar respuesta: el tiempo de respuesta a los eventos
y datos en sus diferentes formatos (sensores, vídeo, documentos, texto, logs) hace necesario el
uso de tecnologías que permitan responder en el plazo necesario, incluyendo tecnologías de real
time. En otras palabras, es más relevante “la velocidad con que se crean los datos, que es la medida
en que aumentan los productos de desarrollos de software (páginas web, archivos de búsquedas, redes
sociales, foros, correos electrónicos, entre otros)”, afirman Camargo Vega, Camargo Ortega y Joya-
nes (2015, p. 66).
Figura Nº 8: Reflejo de la velocidad de los datos
Fuente: adaptación de (IBM, s.f., citado por Carrero, 2017). Las cuatro V de Big Data [Figura].
12
Para ampliar este concepto, se recogen los aportes de Schroeck, Shockley, Smart, Romero-Mo-
rales y Tufano:
La velocidad a la que se crean, procesan y analizan los datos conti-
núa aumentando. Contribuir a una mayor velocidad es la naturale-
za en tiempo real de la creación de datos, así como la necesidad de
incorporar datos en streaming a los procesos de negocio y la toma
de decisiones. La velocidad afecta a la latencia: el tiempo de espera
entre el momento en el que se crean los datos, el momento en el
que se captan y el momento en el que están accesibles. Hoy en día,
los datos se generan de forma continua a una velocidad a la que a
los sistemas tradicionales les resulta imposible captarlos, almace-
narlos y analizarlos. Para los procesos en los que el tiempo resulta
fundamental, tales como la detección de fraude en tiempo real o
el marketing “instantáneo” multicanal, ciertos tipos de datos deben
analizarse en tiempo real para que resulten útiles para el negocio.
(2012, p. 6)
1.4 VERACIDAD: INCERTIDUMBRE DE LOS DATOS
La variedad de datos genera valor, pero también complejidad al momento de trabajar con la in-
formación. Por tal motivo, necesariamente, surge la veracidad como característica del Big Data y
la calidad como un propósito. Al respecto, reflexionan Schroeck, Shockley, Smart, Romero-Mo-
rales y Tufano, quienes se dedican a definir esta imporante “V”:
La veracidad hace referencia al nivel de fiabilidad asociado a cier-
tos tipos de datos. Esforzarse por conseguir unos datos de alta ca-
lidad es un requisito importante y un reto fundamental de big data,
pero incluso los mejores métodos de limpieza de datos no pueden
eliminar la imprevisibilidad inherente de algunos datos, como el
tiempo, la economía o las futuras decisiones de compra de un clien-
te. La necesidad de reconocer y planificar la incertidumbre es una
dimensión de big data que surge a medida que los directivos inten-
tan comprender mejor el mundo incierto que les rodea.
[…]
La incertidumbre se manifiesta en big data de muchas formas. Se
encuentra en el escepticismo que rodea a los datos creados en en-
tornos humanos como las redes sociales; en el desconocimiento de
cómo se desarrollará el futuro y cómo las personas, la naturaleza o
las fuerzas ocultas del mercado reaccionarán a la variabilidad del
mundo que les rodea. (2012, p. 7)
13
Figura Nº 9: Consecuencias de la incertidumbre de los datos
Fuente: adaptación de (IBM, s.f., citado por Carrero, 2017). Las cuatro V de Big Data [Figura].
Si bien los datos deben de ser veraces, según Strategy Big Data, lo realmente importante es que
sean analizables y analizados. Por tal motivo, es necesario modelarlos y caracterizarlos, y cons-
truir modelos alineados con el negocio. Por otra parte, dependiendo de su naturaleza y origen,
pueden utilizarse ETL/ELT (Extract-Transform-Load) convencionales. Cabe destacar que, nor-
malmente, se requiere de mayor procesado, con lo que estas herramientas son útiles parcial-
mente. También puede recurrirse a plataformas de procesado masivo, como Hadoop o Spark,
con su ecosistema de utilidades.
Recuerda
Es necesario caracterizar los datos, normalizar las características y
construir el modelo.
Una vez que se tiene el modelo, pueden aplicarse los algoritmos de data mining adaptados al mo-
delo y al problema a resolver, y optimizados para procesar grandes volúmenes de datos con altas
dimensiones. Además, se podrá analizar información en grafos y aplicar algoritmos de machine
learning. Con la salida de estos algoritmos, sólo queda usar las herramientas de visualización
idóneas.
14
1.5 VALOR: DATOS RENTABLES
Anteriormente, la mayoría de las personas solía adoptar la perspectiva del volumen y la variedad
puros: más datos, más tipos de datos, más fuentes de datos y formas más diversas de datos. Sin
embargo, los datos como tales no tienen sentido, ya que lo que realmente importa es su signi-
ficado, los datos procesables, la información procesable, la inteligencia procesable, un objetivo
y la acción para llegar allí, gracias a la analítica del Big Data. Ello es explicado por el Instituto de
Ingeniería del Conocimiento (2016) en su sitio web:
El dato no es valor. Tampoco tienes valor por el mero hecho de
recopilar gran cantidad de información. El valor se obtiene de da-
tos que se transforman en información; esta a su vez se convier-
te en conocimiento, y este en acción o en decisión. El valor de los
datos está en que sean accionables, es decir, que los responsables
de las empresas puedan tomar una decisión (la mejor decisión) en
base a estos datos.
No todos los datos de los que partimos se convierten en acción
o decisión. Para ello, es necesario tener tecnologías aplicadas.
Por ejemplo, una publicación en una red social que, gracias al uso
de tecnologías de procesamiento de lenguaje natural, puede medir
el sentimiento positivo o negativo, con la ayuda de un algoritmo de
análisis de redes sociales o herramientas que permitan obtener de
esto información.
Importante
“El valor de los datos viene determinado por el cumplimiento de las
otras cuatro características, aunque no es intrínseco ni exclusivo del
Big Data, ni de los datos en sí mismos”, explica Pablo de Castro
(2015). El autor considera que esta es la “V” más importante, dado
que de nada servirían las ya mencionadas si lo realizado no sirve
para determinar la validez de los datos en uso previsto ni cómo le
añaden valor1 al negocio en cada caso concreto.
Figura Nº 10: La quinta “V”
² Los datos se han convertido en la principal fuente de riqueza y valor añadido.
15
Fuente: elaboración propia a partir de una adaptación de IBM (s.f.). Extracting business value from the
4 V’s of big data [Figura].
Todo proyecto de tecnología debe de generar valor a través de su correcto mapeo con un driver
o palanca del negocio, dado que es necesario que exista una conexión directa con una cuenta
de resultados. En este sentido, se considera que se hace una gran inversión si la misma tiene un
retorno (ROI) y se refleja en la cuenta de resultados. Al respecto, se destaca que 60% de las ini-
ciativas de Big Data fracasan por ausencia de un driver de negocio.
1.6 OTRAS “V” A TENER EN CUENTA
Tal como reflejaba la Figura Nº 1, al hablar de Big Data también es importante considerar la
viabilidad y la visualización de los datos. Respecto de este primer concepto, el Instituto de In-
geniería del Conocimiento (2016) explica que se vincula con la capacidad de las compañías de
generar uso eficaz del gran volumen de datos que manejan. Dicha institución considera que una
empresa inteligente analiza, selecciona y monitoriza la información con el fin de, por un lado,
conocer mejor el mercado donde opera y sus clientes, y, por el otro, diseñar estrategias eficaces.
En otras palabras, la inteligencia competitiva es aquella que, en primer lugar, filtra y selecciona
cuidadosamente los atributos y factores capaces de predecir los resultados de mayor interés y,
en segundo lugar, habiendo determinado que el proyecto es viable, lo detalla en una hoja de ruta
y desarrolla el plan de negocio.
Por su parte, la visualización de los datos hace referencia, según el citado instituto, al modo en
que estos son presentados. Una vez que son procesados (los datos están en tablas y hojas de
cálculo), es necesario representarlos visualmente de manera tal que sean legibles y accesibles,
para encontrar patrones y claves ocultas en el tema a investigar.
16
2. EN CONCLUSIÓN, ¿QUÉ ES BIG DATA?
Para dar respuesta a la pregunta introducida por el título, resulta más sencillo comenzar por
aclarar qué no es Big Data:
- El Big Data no es una aplicación software.
- El Big Data no es solo un gran volumen de datos.
- El Big Data no es un conjunto de datos estructurados.
- El Big Data no es Data Science.
El Big Data es una solución tecnológica que, por sus características de escalabilidad, diversidad
y disponibilidad, requiere de nuevas tecnologías de hardware y software para poder procesar
datos. Esto se debe a que las tecnologías tradicionales no son capaces de recopilar, almacenar y
procesar la información necesaria para cumplir con los nuevos requerimientos de la compañía.
Se llega así a que el primer desafío es entender si un problema de negocio necesita de una solu-
ción de Big Data. Ello podrá apreciarse si el inconveniente toca alguna de las “V” mencionadas,
todas ellas en el mismo nivel o alguna más que otra.
17
BIBLIOGRAFÍA
Asensi Viana, F., Calatrava, A., Gallo, A., Gallego, F., González Vasco, M., Pérez de Vargas, B.,
. . . Santa Olalla, B. (2017). Big data: eje estratégico en la industria audiovisual. (E. Fernández, Ed.)
Barcelona: Editorial UOC.
Calvo, D. (21 de noviembre de 2017). Tipos de datos: estructurados, semiestructurados y no estructu-
rados. Recuperado el 25 de julio de 2018, de Diego Calvo: [Link]
tructurados-semiestructurados-y-no-estructurados/
Camargo Vega, J., Camargo Ortega, J. F., & Joyanes, L. (2015). Conociendo Big Data. Revista Facul-
tad de Ingeniería, XXIV(38), 63-77.
Carrero, D. (15 de febrero de 2017). Las cuatro V del Big Data: Volumen, Velocidad, Variedad y Vera-
cidad. Recuperado el 25 de julio de 2018, de Revista Cloud: [Link]
big-data/
De Castro, P. (2015). Análisis prospectivo de nuevas oportunidades de negocio derivadas del desarro-
llo de la concepción SMART para el horizonte 2025. Madrid: Fundación EOI.
El Kutby, S. (2017). Customer experience. Barcelona: Marcombo.
IBM. (s.f.). Extracting business value from the 4 V’s of big data. Recuperado el 24 de julio de 2018, de
IBM Big Data & Analytics Hub: [Link]
lue-4-vs-big-data
Instituto de Ingeniería del Conocimiento. (07 de noviembre de 2016). Infografía Big Data: las 7 V.
Recuperado el 25 de julio de 2018, de Instituto de Ingeniería del Conocimiento: [Link]
innovacion/big-data-infografia-7-v/
Instituto de Ingeniería del Conocimiento. (28 de junio de 2016). Las 7 V del Big data: Característi-
cas más importantes. Recuperado el 26 de julio de 2018, de Instituto de Ingeniería del Conocimiento:
[Link]
Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D., & Tufano, P. (2012). Analytics: el uso
de big data en el mundo real. Cómo las empresas más innovadoras extraen valor de datos inciertos. IBM
Institute for Business Value; Escuela de Negocios Saïd en la Universidad de Oxford. Madrid: IBM.
Stair, R., & Reynolds, G. (2010). Principios de sistemas de información: un enfoque administrativo
(Novena ed.). México DF: Cengage Learning.
Strategy Big Data. (s.f.). Qué es Big Data. Recuperado el 29 de agosto de 2017, de Strategy Big Data:
[Link]
18