¿QUÉ ES EL BIG DATA?
Cuando hablamos de Big Data nos referimos a conjuntos de
Big Data es un término que describe el gran volumen de datos o combinaciones de conjuntos de datos cuyo tamaño
datos, tanto estructurados como no estructurados, que (volumen), complejidad (variabilidad) y velocidad de
inundan los negocios cada día. Pero no es la cantidad de crecimiento (velocidad) dificultan su captura, gestión,
datos lo que es importante. Lo que importa con el Big Data procesamiento o análisis mediante tecnologías y
es lo que las organizaciones hacen con los datos. Big Data se herramientas convencionales, tales como bases de datos
puede analizar para obtener ideas que conduzcan a mejores relacionales y estadísticas convencionales o paquetes de
decisiones y movimientos de negocios estratégicos. visualización, dentro del tiempo necesario para que sean
útiles.
Aunque el tamaño utilizado para determinar si un conjunto
La naturaleza compleja del Big Data se debe principalmente de datos determinado se considera Big Data no está
a la naturaleza no estructurada de gran parte de los datos firmemente definido y sigue cambiando con el tiempo, la
generados por las tecnologías modernas, como los web mayoría de los analistas y profesionales actualmente se
logs, la identificación por radiofrecuencia (RFID), los refieren a conjuntos de datos que van desde 30-50 Terabytes
sensores incorporados en dispositivos, la maquinaria, los a varios Petabytes. En la mayoría de los casos, con el fin de
vehículos, las búsquedas en Internet, las redes sociales como utilizar eficazmente el Big Data, debe combinarse con datos
Facebook, computadoras portátiles, teléfonos inteligentes y estructurados (normalmente de una base de datos
otros teléfonos móviles, dispositivos GPS y registros de relacional) de una aplicación comercial más convencional,
centros de llamadas. como un ERP (Enterprise Resource Planning) o un CRM
(Customer Relationship Management).
IMPORTANCIA DEL BIG DATA
• Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona
respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. En otras
palabras, proporciona un punto de referencia. Con una cantidad tan grande de información,
los datos pueden ser moldeados o probados de cualquier manera que la empresa considere
adecuada. Al hacerlo, las organizaciones son capaces de identificar los problemas de una
forma más comprensible.
• La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los
datos permiten que las empresas se muevan mucho más rápidamente, sin problemas y de
manera eficiente. También les permite eliminar las áreas problemáticas antes de que los
problemas acaben con sus beneficios o su reputación.
• El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más
inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las
empresas con más éxito con Big Data consiguen valor de las siguientes formas:
Reducción de coste.
Más rápido, mejor toma de decisiones. Nuevos productos y servicios.
Las grandes tecnologías de datos, como
Hadoop y el análisis basado en la nube, Con la capacidad de medir las necesidades de los
Con la velocidad de Hadoop y la analítica en
aportan importantes ventajas en términos clientes y la satisfacción a través de análisis viene
memoria, combinada con la capacidad de analizar
el poder de dar a los clientes lo que quieren. Con
de costes cuando se trata de almacenar nuevas fuentes de datos, las empresas pueden
la analítica de Big Data, más empresas están
grandes cantidades de datos, además de analizar la información inmediatamente y tomar
creando nuevos productos para satisfacer las
identificar maneras más eficientes de decisiones basadas en lo que han aprendido.
necesidades de los clientes.
hacer negocios.
LAS 5 V DEL BIG DATA
Volumen: como hemos
visto, la cantidad de datos
se define “Big” no cuando
supera un tamaño definido,
sino cuando su
almacenamiento,
procesamiento y
explotación empieza a ser
un reto para una
organización.
Velocidad: la segunda
característica del Big Data
está relacionada con el ritmo
Valor: finalmente, los datos y
a los cuales los datos se
su análisis tienen que
están generando, que suele
generar un beneficio para las
aumentar constantemente y
BIG
empresas.
que necesita una respuesta
en tiempo real por parte de
las empresas.
DATA
Veracidad: además, los datos Variedad: sin embargo, el
tienen que ser confiables y reto principal del Big Data
han que ser mantenidos reside en la gran diferencia
limpios. Una gran cantidad de de formatos distintos en los
datos no tiene valor si son cuales encontramos los datos
incorrectos y puede ser y que pueden ir desde texto
altamente perjudicial, sobre sencillo, a imágenes, videos,
todo en la toma de decisión hojas de cálculos y enteras
automatizada. bases de datos.
TIPOS DE BIG DATA
• Para profundizar en qué es Big Data y para qué sirve, es necesario
saber también que existen distintos tipos de datos asociados a esta
técnica.
• A la hora de clasificar los “grandes datos” podemos hacerlo según dos
criterios: procedencia y estructura.
PROCEDENCIA
Web y Redes Machine-to- Generados por Generados por
Transacciones Biométricos
Sociales Machine (M2M) personas organizaciones
Información Datos generados por Tanto públicas como
disponible en tecnología de privadas: datos
Internet como Datos generados a identificación de A través de correos relacionados con el
contenido Web, partir de la Incluye registros de personas mediante electrónicos, medioambiente,
generada por los comunicación entre facturación, reconocimiento servicios de estadísticas
usuarios en su sensores inteligentes llamadas o facial, de huellas mensajería o gubernamentales
actividad en las integrados en transacciones entre dactilares o grabaciones de sobre población y
redes sociales o objetos de uso cuentas. mediante llamadas. economía,
información de cotidiano. información historiales clínicos
búsquedas en genética. electrónicos, etc.
buscadores.
ESTRUCTURA
Estructurados Semiestructurados No estructurados
Datos almacenados según Datos sin formato
Datos que tienen definidos
una cierta estructura específico, como ficheros de
su formato, tamaño y
flexible y con metadatos texto (Word, PDF, correos
longitud, como las base de
definidos, como XML y electrónicos) o contenido
datos relacionales o Data
HTML, JSON, y las hojas de multimedia (audio, vídeo, o
Warehouse.
cálculo (CSV, Excel). imágenes).
¿CÓMO SE PUEDE USAR?
Marketing: segmentación de
clientes. Muchas empresas usan
datos masivos para adaptar sus
productos y servicios a las
necesidades de sus clientes,
optimizar operaciones e
infraestructuras, y encontrar
nuevos campos de negocio.
Seguridad: detección y Deportes: optimización del
prevención de crímenes. Los rendimiento. Dispositivos como
cuerpos de seguridad usan el Big los smart watches registran
Data para localizar a criminales o automáticamente datos como el
prevenir actividades delictivas consumo de calorías o los niveles
como los ataques cibernéticos. de acondicionamiento físico.
Salud pública: codificación de
Nuevas tecnologías: desarrollo
material genético. Por ejemplo,
de dispositivos autónomos. El
existen plataformas de análisis
análisis de datos masivos puede
del Big Data que se dedican a
contribuir a mejorar máquinas y
descodificar cadenas de ADN para
dispositivos, y hacerlos más
comprender mejor las
autónomos. Un ejemplo son los
enfermedades y encontrar
coches inteligentes.
nuevos tratamientos.
DESAFIOS DEL BIG DATA
Muchas fuentes y tipos
de datos
Con tantas fuentes, tipos
de datos y estructuras
complejas, la dificultad de
integración de datos
aumenta.
Tremendo volumen de
No existen estándares de datos
calidad de datos
unificados. Como ya hemos visto, el
La investigación sobre la volumen de datos es
calidad de datos de big DESAFIOS enorme, y eso complica
data ha comenzado hace la ejecución de un
poco y no hay apenas proceso de calidad de
resultados. datos dentro de un
tiempo razonable.
Mucha volatilidad
Los datos cambian
rápidamente y eso hace
que tengan una validez
muy corta. Para
solucionarlo necesitamos
un poder de
procesamiento muy alto.