Big data: ¿En qué consiste?
que es y su importancia
Es un término que describe un gran volumen de datos, tanto estructurados como
no estructurados, que invaden los negocios de hoy en día. Pero lo importante
realmente no es que la cantidad de datos que manejen, si no lo que las
organizaciones hacen con tales datos.
Big data se puede analizar para obtener ideas que nos lleven a una mejor decisión
y mejores movimientos de negocio estratégicos.
1. ¿Qué es big data?
Cuando hablamos de big data nos referimos a un conjunto de datos o
combinaciones de conjuntos de datos cuyo volumen (tamaño), variabilidad
(complejidad) y velocidad hacen compleja la captura, gestión,
procesamiento o análisis de estos datos mediante tecnologías o
herramientas convencionales, como base datos relacionales Y estadísticas
convencionales o paquetes de visualización.
Aunque no está definido firmemente el tamaño utilizado para determinar si
un conjunto de datos se puede determinar cómo big data, la mayoría de los
analistas y profesionales en este momento se refieren a conjuntos de datos
que van de 30 a 50 Terabytes a varios petabytes.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data,
debe combinarse con datos estructurados (normalmente de una base de
datos relacional) de una aplicación comercial más convencional, como un
ERP (Enterprise Resource Planning) o un CRM (Customer Relationship
Management).
2. ¿Por qué es importante big data?
Lo que lo hace útil al big data para muchas empresas, es el hecho de que
da respuestas a muchas preguntas que las empresas ni siquiera sabían
que tenían. Con una cantidad tan inmensa de información, los datos
pueden ser moldeados o probados de cualquier manera que la empresa
crea adecuado; al hacerlo, las organizaciones son capaces de encontrar e
identificar los problemas que se presenten de una forma más comprensible
La recopilación de grandes cantidades de datos y la búsqueda de
tendencias dentro de los datos permiten que las empresas se muevan
mucho más rápidamente, sin problemas y de manera eficiente. También les
permite eliminar las áreas problemáticas antes de que los problemas
acaben con sus beneficios o su reputación.
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos
y utilizarlos para identificar nuevas oportunidades. Eso, a su vez, conduce a
movimientos de negocios más inteligentes, operaciones más eficientes,
mayores ganancias y clientes más felices. Las empresas con más éxito con
Big Data consiguen valor de las siguientes formas:
Reducción de coste. Las grandes tecnologías de datos, como
Hadoop y el análisis basado en la nube, aportan importantes ventajas
en términos de costes cuando se trata de almacenar grandes
cantidades de datos, además de identificar maneras más eficientes
de hacer negocios.
Más rápido, mejor toma de decisiones. Con la velocidad
de Hadoop y la analítica en memoria, combinada con la capacidad de
analizar nuevas fuentes de datos, las empresas pueden analizar la
información inmediatamente y tomar decisiones basadas en lo que
han aprendido.
Nuevos productos y servicios. Con la capacidad de medir las
necesidades de los clientes y la satisfacción a través de análisis viene
el poder de dar a los clientes lo que quieren.
3. Desafíos de calidad de datos big data
4.
Las especiales características hacen que su calidad de datos se enfrenten
a múltiples desafíos Se trata de las conocidas como 5 Vs: Volumen,
Velocidad, Variedad, Veracidad y Valor, que definen la problemática del Big
Data.
Estas 5 características del big data provocan que las empresas tengan
problemas para extraer datos reales y de alta calidad, de conjuntos de
datos tan masivos, cambiantes y complicados.
Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son:
A. Muchas fuentes y tipos de datos
Con tantas fuentes, tipos de datos y estructuras complicadas, la
dificultad de la integración de datos aumenta.
Las fuentes de datos de datos de big data son muy grandes:
Datos de internet y móviles.
Datos de Internet de las Cosas.
Datos sectoriales recopilados por empresas especializadas.
Datos experimentales.
Y los tipos de datos también lo son:
1. Tipos de datos no estructurados: documentos, vídeos, audios,
etc.
2. Tipos de datos semi-estructurados: software, hojas de cálculo,
informes.
3. Tipos de datos estructurados
Solo el 20% de información es estructurada y eso puede provocar
muchos errores si no acometemos un proyecto de calidad de datos.
B. Tremendo volumen de datos
Como ya hemos visto, el volumen de datos es enorme, y eso complica
la ejecución de un proceso de calidad de datos dentro de un tiempo
razonable.
Es difícil recolectar, limpiar, integrar y obtener datos de alta calidad de
forma rápida. Se necesita mucho tiempo para transformar los tipos no
estructurados en tipos estructurados y procesar esos datos.
C. Mucha volatilidad
Los datos cambian rápidamente y eso hace que tengan una validez
muy corta. Para solucionarlo necesitamos un poder de procesamiento
muy alto.
Si no lo hacemos bien, el procesamiento y análisis basado en estos
datos puede producir conclusiones erróneas, que pueden llevar a
cometer errores en la toma de decisiones.
D. No existen estándares de calidad de datos unificados
En 1987 la Organización Internacional de Normalización (ISO) publicó
las normas ISO 9000 para garantizar la calidad de productos y
servicios. Sin embargo, el estudio de los estándares de calidad de los
datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando
ISO publicó las normas de calidad de datos ISO 8000.
Estas normas necesitan madurar y perfeccionarse. Además, la
investigación sobre la calidad de datos de big data ha comenzado hace
poco y no hay apenas resultados.
La calidad de datos de big data es clave, no solo para poder obtener
ventajas competitivas sino también impedir que incurramos en graves
errores estratégicos y operacionales basándonos en datos erróneos
con consecuencias que pueden llegar a ser muy graves.
E.