Definición de Datos Masivos
Los analistas de datos de Data Cruncher le presentaron los conceptos de
análisis y la importancia de las visualizaciones. Ahora es el momento de
trabajar junto con los ingenieros de datos de la empresa para conocer los datos
masivos (big data) y el rol que los ingenieros desempeñan en construir, en
mantener y en garantizar que la infraestructura de datos de la organización
esté disponible y sea confiable.
Datos masivos (Big Data) es un término utilizado para describir los volúmenes
masivos de datos digitales generados, recopilados y procesados. El término
datos masivos describe datos que se mueven demasiado rápido, son
simplemente demasiado grandes o demasiado complejos para almacenarse,
procesarse o analizarse con aplicaciones tradicionales de almacenamiento y
análisis de datos. Algunos ejemplos de datos masivos incluyen datos
generados por publicaciones en cuentas de medios sociales, como Facebook y
Twitter, y las calificaciones otorgadas a productos en sitios de comercio
electrónico como el mercado de Amazon.
El tamaño es solo una de las características que definen los datos masivos.
Otros criterios incluyen la velocidad de los datos generados y la variedad de
datos recopilados y almacenados.
Características de los Datos Masivos
Las características de los datos masivos cambian la forma en que los datos se
recopilan, transmiten, almacenan y acceden. Haga clic en cada cuadrante en la
figura a continuación para leer sobre las cuatro V de datos masivos y los
desafíos que crean para los ingenieros de infraestructura de datos.
Volumen
El volumen describe la cantidad de datos que se transporta y se almacena.
Según los expertos de International Data Corporation (IDC), descubrir formas
de procesar las cantidades crecientes de datos generados cada día es un
desafío. Ellos predicen que el volumen de datos aumentará a una tasa de
crecimiento anual compuesta del 23% en los próximos cinco años. Si bien los
sistemas de almacenamiento de datos tradicionales pueden, en teoría, manejar
grandes cantidades de datos, están luchando por mantenerse al día con las
grandes demandas de volumen de datos masivos.
Variedad
La variedad describe las diversas formas que los datos pueden adoptar, la
mayoría de las cuales rara vez están listas para el procesamiento y el análisis.
Un contribuyente significativo a los datos masivos son los datos no
estructurados, como video, imágenes y documentos de texto, que se estima
representan del 80 al 90% de los datos del mundo. Estos formatos son
demasiado complejos para las arquitecturas de almacenamiento de
almacenamiento de datos tradicionales. Los datos no estructurados que
constituyen una parte significativa de los datos masivos no caben en las filas y
columnas del sistema tradicional de almacenamiento de datos relacionales.
Velocidad
Velocidad describe el ritmo al que se generan estos datos. Por ejemplo, los
datos generados por la Bolsa de Valores de Nueva York por mil millones de
acciones vendidas no pueden almacenarse simplemente para un análisis
posterior. Debe analizarse e informarse inmediatamente. La infraestructura de
datos debe responder instantáneamente a las demandas de las aplicaciones
que acceden y transmiten los datos. Los datos masivos se escalan
instantáneamente, y la investigación a menudo debe realizarse en tiempo real.
Veracidad
La veracidad es el proceso de evitar que los datos inexactos estropeen sus
conjuntos de datos. Por ejemplo, cuando las personas se registran para tener
una cuenta en línea, suelen usar información de contacto falsa. Gran parte de
esta información inexacta se debe “eliminar” de los datos antes de usarla en el
análisis. Una mayor veracidad en la recopilación de datos puede reducir la
cantidad de limpieza de datos necesaria.
Características de los Datos Masivos
Ahora que los ingenieros de Data Cruncher han explicado las diversas
características de los datos masivos, ¿puede identificar qué características de
datos masivos se describen en cada ejemplo de cliente?
Un minorista en línea analiza datos de calificaciones y comentarios de clientes.
Al minorista le preocupa que las personas sean más propensas a proporcionar
revisión si tienen una mala experiencia que si tienen una buena experiencia
con un producto.
Veracidad
Un fabricante está instalando cien sensores nuevos para verificar si hay
defectos del producto durante la producción. Los sensores tomarán entre veinte
y treinta lecturas por segundo, luego deberán analizar los datos
inmediatamente para determinar si un problema con el equipo o el proceso está
provocando un defecto.
:Velocidad
Un estudio de cine está recopilando comentarios sobre una nueva película que
se estrenó en un cine tradicional y en un servicio de transmisión durante la
misma semana. Los comentarios se recopilan a través de calificaciones y
revisión, comentarios en medios sociales y artículos de revistas.
Variedad
Una empresa de procesamiento de tarjetas de crédito procesa más de 18
millones de transacciones por día e informa los números de cuenta y la
información de compra a los emisores de tarjetas. Todas las transacciones
deben almacenarse hasta que se reciban las confirmaciones de los emisores
de la tarjeta y se actualice la información del saldo.
Volumen
Los Beneficios Potenciales del
Crecimiento de Datos
Hay muchos factores que impulsan este crecimiento de datos, pero los más
predominantes son...
• la proliferación de dispositivos de Internet de las cosas (IoT),
• mayor acceso a Internet, mayor acceso a banda ancha,
• el uso de teléfonos inteligentes, y
• la popularidad de las redes sociales.
Este conjunto de datos permite que las aplicaciones aprovechen las tendencias
y las comparaciones descubiertas a través del análisis para tomar medidas y
hacer recomendaciones y predicciones confiables.
Seleccione cada uno de los siguientes ejemplos de cómo la
disponibilidad de datos masivos puede beneficiar a nuestra sociedad.
Servicios de salud
La robótica, los dispositivos médicos inteligentes, los sistemas de software
integrados y las plataformas de colaboración virtual están cambiando la forma
en que se brinda la atención al paciente. Muchas de estas tecnologías basadas
en datos simplifican la vida de los pacientes, los médicos y los administradores
de servicios de salud al realizar tareas que los humanos suelen realizar. Las
computadoras pueden detectar cánceres con notable precisión utilizando los
datos disponibles de millones de solicitudes médicas. Estos sistemas, a su vez,
crean más datos para analizar y utilizar para mejorar la atención.
Comercio minorista
Los minoristas dependen cada vez más de los datos generados por tecnologías
digitales para mejorar sus resultados económicos. Connected Mobile
Experiences (CMX) de Cisco permite que los minoristas proporcionen a los
consumidores contenido altamente personalizado al mismo tiempo que
obtienen visibilidad de su comportamiento en la tienda
Educación
En educación, los instructores pueden utilizar datos para identificar áreas en las
que los estudiantes luchan o prosperan, comprender las necesidades
individuales de los estudiantes y desarrollar estrategias para un aprendizaje
personalizado. Las escuelas virtuales brindan a los estudiantes acceso a libros
de texto, contenido y asistencia diseñados y personalizados para cumplir con
los requisitos de los estudiantes.
2.2.1 Canalizaciones de datos
El uso de todos estos datos para lograr estos beneficios potenciales requiere la
administración de los datos. Los ingenieros de datos son los profesionales que
participan en esta administración. Este proceso incluye el desarrollo de infraestructura y
sistemas para incorporar los datos, limpiarlos y transformarlos, y finalmente
almacenarlos de manera que el resto de las personas de su organización pueda acceder y
consultar los datos para responder preguntas comerciales.
¿Qué es una canalización de datos?
El mejor enfoque es pensar en una canalización de datos para comprender mejor lo que
hacen los ingenieros de datos con los datos. Se puede ver casi como el agua que fluye a
través de las tuberías. Para comprender lo que hacen los ingenieros de datos con estos
datos, considere la siguiente figura, que es una representación simplificada de los datos
que fluyen a través de las tres fases de un flujo de datos: ingestión, transformación y
almacenamiento.
Nota: También verá el acrónimo ETL , que significa Extract , T ransform y Load . El
extracto es equivalente a la ingestión y el almacenamiento es equivalente a la carga.
fase en la canalización de datos para obtener más información.
Ingestión
Los ingenieros de datos querrán ingerir dos fuentes principales de datos: lotes
de datos de servidores o bases de datos (ingesta por lotes) y eventos en
tiempo real que suceden en el mundo y que se transmiten desde el mundo de
los dispositivos (ingestión de transmisión). Un ejemplo de ingesta por lotes es
una empresa de juegos que desea examinar la relación entre las renovaciones
de suscripción y los tickets de atención al cliente. Podría ingresar todos los
datos relacionados de forma diaria o semanal. No necesita acceder y analizar
los datos inmediatamente después de que se cierre un ticket de soporte o se
renueve una suscripción. Un ejemplo de ingestión de transmisión es cuando
solicita un viaje desde un servicio de viaje compartido. La empresa combina
flujos de datos (por ejemplo, datos históricos, datos de tráfico en tiempo real y
seguimiento de la ubicación) para asegurarse de que el conductor más cercano
a usted lo lleve en ese momento.
Transformación
Después de alojar los datos ingeridos en almacenamiento temporal, estamos
listos para comenzar, ¿no? Bueno, no del todo. Los datos casi siempre deben
transformarse para ser útiles para análisis posteriores. Hay dos cuestiones
principales que deben abordarse aquí. En primer lugar, los datos a menudo
deben limpiarse: los valores faltantes, las fechas pueden estar en el formato
incorrecto y los datos se vuelven obsoletos rápidamente: es posible que haya
recopilado datos sobre personas que han cambiado roles o empresas.
El otro problema importante implica la transformación de los datos para que su
estructura se alinee con el sistema necesario para permitir análisis precisos.
Por ejemplo, es posible que desee averiguar los productos más vendidos de su
empresa cada mes. Pero los datos solo pueden contener la fecha de venta de
cada producto. Debería transformar los datos creando, por ejemplo, una
variable de ventas por mes.
Después de transformar los datos, deben almacenarse en lugares y formas, lo
que facilita a los analistas ejecutarn informes sobre ventas semanales y los
científicos de datos para crear modelos de recomendación predictivos. La
seguridad de los datos, o la administración del acceso a los datos para que las
personas que deberían acceder a los datos puedan hacerlo de manera
eficiente, y excluyan a las personas que no deberían hacerlo.
Hay dos ubicaciones principales para que las empresas almacenen sus datos,
en las instalaciones o en la nube. A menudo, las empresas utilizan un híbrido
de ambos.
El término “en las instalaciones” se refiere al hardware en los servidores y la
infraestructura de una organización, generalmente básicamente en el sitio. En
el pasado, el almacenamiento en las instalaciones era la única opción
disponible para almacenar datos. La organización implementaría más
servidores a medida que aumentaran las necesidades de almacenamiento. Con
el tiempo, las organizaciones tenían salas o centros de datos completos con
servidores que alojaban las bases de datos que almacenaban todos los datos.
Este modelo tenía costos directos significativos para el hardware y las licencias
de los servidores, además de costos indirectos de energía, refrigeración y
servicios de respaldo fuera del sitio. La empresa también debe contar con
personal de TI para mantener y administrar los servidores.
Hoy, sin embargo, las empresas mueven cada vez más su almacenamiento de
datos a la nube. El almacenamiento en la nube parece misterioso, pero solo
significa almacenar datos en servidores mantenidos por proveedores como
Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP) y
Alibaba Cloud. El proveedor de servicios en la nube compra, instala y mantiene
todo el hardware, el software y la infraestructura de soporte en sus centros de
datos. Mediante el uso de servicios en la nube, una organización evita los
enormes costos de construcción y soporte de la infraestructura necesaria para
almacenar las grandes cantidades de datos que recopilan. En cambio, el
proveedor de servicios en la nube cobra una tarifa de suscripción de "pago por
uso" (mensual).