Big Data
Integrantes: _Maximiliano Benavente
_Francisco Caro
Asignatura: Big Data BIY7131
Profesor: Ricardo Pino
Situación Actual
Walmart es una empresa multinacional estadounidense que se dedica a la venta de
productos al por menor en hipermercados y tiene presencia en varios países del
mundo. La compañía utiliza el Big Data para optimizar la experiencia de compra de
sus clientes y mejorar la eficiencia operativa de la empresa. Walmart procesa
terabytes de datos diarios para analizar palabras clave, patrones de compra y
preferencias de los consumidores, lo que le permite tomar decisiones informadas
sobre la gestión de inventarios, la distribución de productos y la personalización de
la experiencia de compra. La empresa también utiliza el Big Data para predecir la
demanda y optimizar el personal en sus tiendas.
En resumen, Walmart ha encontrado en el Big Data una herramienta valiosa para
aumentar su eficiencia y mejorar su capacidad para satisfacer las necesidades de
sus clientes.
Justificación de Big Data
Para Walmart en este caso se justifica el uso de big data en comparación con el
análisis tradicional de datos porque los datos que se manejan son muy grandes y
complejos, lo que hace que el análisis tradicional sea insuficiente para procesar y
analizar todos los datos de manera eficiente.
Además, el uso de big data permite la identificación de patrones y tendencias
ocultas en grandes cantidades de datos, lo que puede proporcionar información
valiosa para la toma de decisiones en diversos campos, como mejorar las
experiencias de usuario, eficiencia de procesos y optimizar el orden de las
sucursales.
En cuanto a las V de big data presentes en este caso, se pueden identificar:
● Volumen: Se maneja un gran volumen de datos, que es demasiado grande
para ser procesado mediante herramientas tradicionales.
● Velocidad: Los datos se generan y se transmiten a gran velocidad, lo que
requiere herramientas y técnicas especiales para procesarlos en tiempo real.
● Variedad: Los datos provienen de diversas fuentes y se presentan en
diferentes formatos, lo que hace que sea difícil procesarlos y analizarlos con
herramientas tradicionales.
● Valor: Walmart utiliza big data para obtener información valiosa que les
ayuda a tomar decisiones.
● Veracidad: Al ser datos que se usarán para tomar decisiones respecto a los
procesos de la compañía, Walmart necesita asegurarse de que los datos que
utiliza sean precisos y confiables.
En resumen, el uso de big data permite manejar grandes cantidades de datos de
diferentes fuentes y formatos en tiempo real, lo que permite identificar patrones y
tendencias ocultas que pueden ser valiosas para la toma de decisiones.
Herramientas recomendadas
Considerando una solución principalmente en la nube, esto debido a la gran
cantidad de sucursales y la necesidad de conocer detalles sobre todas estas,
Google cloud aparece como opción recomendada.
Se recomienda debido a que Google Cloud Platform (GCP) ofrece una amplia
variedad de herramientas y servicios que pueden ser útiles para almacenar,
procesar y analizar grandes cantidades de datos, como Cloud Storage para
almacenamiento en la nube, BigQuery para análisis de datos a gran escala, Cloud
Dataflow para procesamiento de datos en tiempo real, Cloud Dataproc para ejecutar
cargas de trabajo de Apache Hadoop y Spark en GCP.
Esta plataforma permite además la integración con herramientas para machine
learning que uno necesite utilizar, por ejemplo Jupyter Notebook para usar python
como herramienta.
Ahora, al momento de seleccionar qué herramientas de esta plataforma se deben
utilizar, dependerá de lo que se quiere hacer y las dependencias que se requieren.
Un ejemplo es la elección entre Dataproc y Dataflow. Google provee el siguiente
esquema para tomar esa decisión:
https://cloud.google.com/dataflow/images/flow-vs-proc-flowchart.svg
Ciclo de vida y gobierno de datos
En cuanto al ciclo de vida presente en los datos de walmart podemos entenderlo de
la siguiente manera:
1. Captura de datos: Es la etapa en la que se recopilan los datos de interés.
Para Walmart, esto incluye la información de ventas, el inventario de
productos, el seguimiento de precios, las transacciones de los clientes, entre
otros.
2. Almacenamiento de datos: Para Walmart, esto incluye la infraestructura de
almacenamiento de datos en la nube, donde se almacenan los datos como
ejemplo datos de las ventas y de los clientes.
3. Procesamiento de datos: Procesamiento para su análisis. Walmart utiliza
herramientas de análisis de datos para extraer información útil de los datos
almacenados, como el rendimiento de ventas de un producto específico o la
lealtad del cliente.
4. Análisis de datos: Aquí es donde los datos procesados se utilizan para
extraer información útil y tomar decisiones de negocios. En Walmart, el
análisis de datos se utiliza para identificar tendencias de ventas y
preferencias del cliente, y para ajustar la oferta de productos en
consecuencia.
5. Visualización de datos: Creación de visualizaciones para comunicar los
resultados del análisis de datos a los interesados. Walmart utiliza
herramientas de visualización de datos para presentar informes de ventas y
para identificar áreas de mejora en la oferta de productos.
6. Mantenimiento de datos: Una vez que se ha completado el análisis de datos,
es importante mantener los datos actualizados y precisos. En el caso de
Walmart, esto incluye la actualización constante de la información de ventas y
la supervisión del inventario de productos.
En cuanto al gobierno de datos asociado con este ciclo de vida es importante tener
en cuenta varios aspectos, tenemos datos diversos y con distintos formatos por lo
que es necesario el almacenamiento en bases de datos Nosql permitiendo un
almacenamiento más cómodo de estos, además estos datos deben ser actualizados
constantemente debido a que constantemente se están generando datos en cada
sucursal, por lo que al menos una parte considerable de fuentes de datos deben
estar dirigidas a bases de datos en tiempo real. En cuanto a la seguridad de los
datos, al ser datos relevantes para el desempeño de la compañía es importante que
se encuentren seguros y con respaldos en caso de pérdidas, por lo que se
recomienda opciones on premise con data almacenada y servicios de backup de
data en la nube como google cloud.
En cuanto a la gestión de calidad y estándares de los datos, es fundamental
establecer políticas y procedimientos que aseguren la precisión, consistencia,
integridad y confiabilidad de los datos, garantizando su calidad y fiabilidad. Para ello,
es necesario implementar procesos de validación y limpieza de los datos antes de
su almacenamiento, y establecer estándares de nomenclatura y etiquetado para
asegurar su correcta identificación y uso.
Arquitectura propuesta
Explicando esta arquitectura, entendemos que existen diversas fuentes de datos,
algunas más generales que otras por ejemplo los datos obtenidos de redes sociales
abarcan la totalidad de las sucursales pero la información de inventario, ventas y
farmacia dependen de cada sucursal, por lo que se requiere al menos un servidor
de almacenamiento on premise para estos datos, los cuales a su vez sirven de
backup de data al estar intercambiando información constantemente con la nube.
Desde este servidor la información se lleva a la nube además de las demás fuentes
de datos, esto a través de google functions al generar triggers o dataprep al
procesar las diversas fuentes de datos, estos datos pueden generarse muy
rápidamente pero independientemente de esto se deben almacenar en usando data
storage de la plataforma google cloud pasando a la capa batch donde es procesado
para obtener información de este, hay que tener en cuenta que este procesamiento
de datos puede ser periodico y establecido por la empresa segun lo que este
dispuesta a pagar, mientras que también existe la capa de tiempo real donde van los
datos que requieren ser procesados y analizados inmediatamente pues se requiere
tomar decisiones rápidamente y constantemente sobre estos. El procesamiento de
datos y posterior análisis permite generar visualizaciones que se usan para tomar
decisiones como por ejemplo cambiar la distribución de un supermercado para
ajustarse a los patrones de compra de los clientes. Podemos considerar esta
arquitectura como el tipo PaaS ya que se usa la plataforma y se modifica para estar
acorde a las necesidades, ya sea con servicios que proveé Google o con soluciones
propias.
Conclusión
En conclusión, para este caso sí es recomendable hacer uso de big data, debido a
que se cumplen los requisitos para que sea necesario. Se recomienda el uso de
herramientas de google cloud ya que facilitan el proceso, tanto de almacenamiento
como procesamiento y análisis de datos, esto a través de una arquitectura
primeramente en la nube tipo PaaS, la cual cuenta con pequeños respaldos on
premise en cada sucursal.