Introducción al Big Data
A lo largo de esta lectura se indagará en el mundo del big data, analizando desde su
concepto y fundamentos hasta sus propiedades y esquemas. De más está decir que
este tema no puede ser abordado en estas líneas, pero se espera que sea la puerta
de inicio a este mundo.
Presentación del caso
Concepto, fundamentos, tipologías, alcances
Propiedades y esquemas
Referencias
Página 1 de 4
Presentación del caso
Acaba de crearse una nueva cadena hotelera en Argentina, La
Estancia. Esta busca adentrarse en el sector turístico y ganar su
lugar mediante la utilización de tecnología, para ello han
diseñado un plan de implementación de big data. El único
problema es que nadie sabe cómo hacerlo.
Es por esto que se contactan con Mark, un especialista en
seguridad y tecnología. La tarea de Mark se centrará en clarificar
las ideas para una correcta implementación de esta tecnología
en el sector hotelero, viendo sus ventajas, desventajas, riesgos y
sus beneficios en la era actual.
C O NT I NU A R
Página 2 de 4
Concepto, fundamentos, tipologías, alcances
Concepto
Debe ponerse en los zapatos de Mark, un experto analista en nuevas
tendencias del cibercrimen. Se le ha encomendado dar un análisis sobre big
data a una reciente cadena de hoteles creada en Argentina. La cadena
llamada “La Estancia” decidió que lo mejor para el manejo de sus datos es la
utilización de big data. Para ello, Mark explicará aspectos fundamentales de
esta tecnología antes de ser utilizada.
En 2001, el analista Doug Laney definió que se entendería al big data “como
un conjunto de técnicas y tecnologías para el tratamiento de datos, en
entornos de gran volumen, variedad de orígenes y donde la velocidad fuese
crítica” (Casas Roma, Nin Guerrero y Julbe López, 2019, p. 28).
Mark señala que de esta definición se desprenden las famosas 3 V del big
data:
Volumen.
Velocidad.
Variedad.
Estas serán tratadas más adelante.
Una definición más simple nos indica que big data es cualquier cantidad de
datos que no es posible de analizar mediante métodos tradicionales.
Video 1: El Big Data en 3 minutos
El Big Data en 3 minutos
Fuente: Exceltic. (16 de febrero de 2018). Big data en 3 minutos [Video de YouTube]. Recuperado de
[Link]
Fundamentos
Es de público conocimiento que, en los últimos años, hemos vivido una
expansión en cuanto a la cantidad de datos existentes. Esto se debió al
aumento de sensores, redes sociales, acceso a internet, etc. Se llevó a cabo
así la creación de nuevos procesos y tecnologías que pudieran procesar y
analizar esa inmensa cantidad de datos. En un primer momento se pensaba
que el aumento en el hardware sería la solución, pero este no se actualizaba
y crecía al mismo ritmo que los datos. Debido a esto, se decidió cambiar las
técnicas para procesar datos.
Siguiendo estas líneas, uno de los cambios más importante fue pasar de un
paradigma de causalidad a un paradigma de correlaciones. El primero nació
debido a que era muy costoso analizar todos los datos existentes para una
determinada empresa, por lo que se prefería analizar solo una pequeña parte
de ellos e inferir que ese análisis sería posible de reproducir en todos los
datos sin analizar. Con el segundo paradigma ya no existe el problema de los
costes, por lo que es factible analizar todos los datos existentes, con esto ya
no interesa realizar relaciones de causalidad, sino que se busca establecer
correlaciones. En definitiva, vemos como la causalidad es desplazada por un
paradigma que busca explicar el “qué” características se relacionan, en lugar
de explicar el “por qué”.
Tipologías
Mark señala que un aspecto clave en cuanto a la implementación de big data
es indicar qué tipología se utilizará. Actualmente existen dos tipologías
generales, la primera se refiere a la forma de estructurar los datos y la
segunda a clasificar según su origen.
Según forma de estructurar:
Son los creados de una
forma preestablecida,
tienen la ventaja de ser
Datos estructurados fácilmente interpretados y
controlados. Un ejemplo de
esto son los archivos de
Excel.
Debido a que estos no son
creados de antemano y no
cuentan con una forma
preestablecida, su
Datos no estructurados
interpretación y manejo se
vuelve muy difícil. Un
Estos datos no cuentan
con una estructura
establecida, pero sí con
elementos implícitos que
Híbridos
facilitan su manejo. Un
ejemplo de esto son los
datos de páginas web y
datos meteorológicos.
Según origen de los datos:
Datos web.
Datos biométricos.
Datos creados por personas.
Datos creados por máquinas.
Figura 1. Datos estructurados, no estructurados e híbridos
Fuente: E-skills business tool box, s. f., [Link]
data/voorbij-de-hype/
Alcances
Según el NIST o Instituto Nacional de Estándares y Tecnologías, actualmente
existen tres áreas donde la utilización de big data es un aspecto clave:
Donde una estructura de datos no relacional sea necesaria para el
análisis de datos.
Donde es necesario aplicar estrategias de escalabilidad horizontal
para procesar y analizar de manera eficiente los datos.
Donde es necesario procesar una estructura de datos no relacional
mediante estrategias de escalabilidad horizontal para procesar y
analizar de manera eficiente los datos.
C O NT I NU A R
Página 3 de 4
Propiedades y esquemas
Propiedades
En líneas anteriores, Mark explicó el concepto de big data y señaló tres
apartados que se desprendían de él, las llamadas 3 V del big data.
La primera V hace referencia al volumen de los datos en sí, en el caso de big
data es tan grande que los datos no pueden ser analizados con formas
tradicionales y por ende se requiere la utilización de esta tecnología.
La segunda se refiere a la velocidad, en el big data, es un objetivo en sí
mismo el lograr proveer la información en tiempos cortos, este es un punto
de implementación muy difícil en la mayoría de los casos. Podemos entender
a la velocidad en dos tipos:
Se trata de la velocidad en
todas las etapas de subida
de datos. Incluye el ETL
De carga
(extracción, transformación
y carga).
Es la velocidad en la que se
De procesamiento aplican funciones de
procesado sobre los datos.
Por último, la variedad se centra en los formatos de los datos y sus distintos
tipos. Actualmente se reconoce la aparición de una cuarta V, veracidad, que
se encarga de velar por la exactitud de los datos y se divide en dos tipos:
Se encarga de medir qué tan
Exactitud del dato
veraz es el dato en bruto.
Se encarga de medir qué tan
veraz es el método analítico
Exactitud en cálculo
que se creó a partir de los
datos analizados.
Figura 2. Big data
Fuente: Ashish Parmar, 1 de marzo de 2019, [Link]
paving-path-businesses-decision/6110
El camino a transitar por los datos es un aspecto vital del big data para todas
las entidades que decidan aplicarlo, La Estancia no está exenta de esto por lo
que Mark le señalará un esquema genérico que debe respetar todo flujo de
datos en un proceso de big data.
Se encuentran seis fases generales:
Objetivos: esta fase busca establecer los objetivos a lograr y los
KPI necesarios para determinar su logro.
Recolección y filtrado de datos: se encarga de recolectar los datos
necesarios para el cumplimiento de los objetivos. Posteriormente
se filtran para evitar datos dañados o corruptos.
Extracción de información: se extrae toda la información
almacenada en los datos para su posterior análisis.
Validación y limpieza de datos: esta etapa se encarga de filtrar y
limpiar los datos inválidos.
Análisis de datos: se analiza toda la información conseguida con
los datos y se establecen conclusiones.
Visualización de datos: toda la información se pasa a un formato
visual para mejorar su entendimiento.
Para profundizar esta lectura deberá dirigirse a:
Ríos Insua, D. y Gómez-Ullate Oteiza, D. (2019). Big data:
conceptos, tecnologías y aplicaciones. Madrid, ES: Editorial CSIC
Consejo Superior de Investigaciones Científicas.
Extensión: Frente al mar de datos
C O NT I NU A R
Página 4 de 4
Referencias
Ashish Parmar. (1 de marzo de 2019). Big Data Analytics Paving The Path
For Businesses With More Informed Decisions. Data Flog. Recuperado de
[Link]
decision/6110
Casas Roma, J. Nin Guerrero, J. y Julbe López, F. (2019). (2019). Big data,
Análisis de datos en entornos masivos. Barcelona, Es: Editorial UOC.
Voorbij de Hype. (s. f.). Big data. E-skills business tool box. Recuperado de
[Link]
Rayo, A. (2016). Tipos de datos en Big data: clasificación por categoría y
por origen. Recuperado de Tipos de datos en Big data: clasificación por
categoría y por origen - Bit
C O NT I NU A R