1- QUE ES BIG DATA
El término “ big data” se refiere a conjuntos de datos extremadamente grandes y
complejos que pueden ser analizados para obtener patrones, tendencias y asociaciones
significativas. Estos conjuntos de datos tradicionales no son suficientes para manejarlos de
manera efectiva.
El big data se caractiza por las “3V”, volumen (gran cantidad de datos), velocidad
(velocidad a la que se generan los datos) y variedad (diversidad de fuentes y tipos de datos).
además, algunos expertos también incluyen la “V” de la veracidad (confiabilidad de los
datos) y la “V” de valor (la capacidad de extraer información valiosa de los datos).
El análisis de big data puede proporcionar información valiosa para la toma de
decisiones en diversos campos, como el marketing, la salud, las finanzas, la logística, entre
otros. Las tecnologías y las herramientas utilizadas para el análisis de big data incluyen el
almacenamiento en la nube, el procesamiento distribuido, el aprendizaje automático y la
inteligencia artificial.
2- HERRAMIENTAS DE BIG DATA
Existen varias herramientas y tecnologías que se utilizan para el procesamiento y
análisis de big data. Algunas de las más populares son:
*Apache Hadoop: Es un framework de software de código abierto que permite el
procesamiento distribuido de grandes conjuntos de datos en cluteres de servidores. Hadoop
incluye componentes como HDFS (Hadoop Distributed System) para el almacenamiento
distribuido y MapReduce para el procesamiento paralelo,
*Apache spark: Es otro framework de código abierto diseñado para el procesamiento rápido
de datos a gran escala. Spark es conocido por su velocidad y versatilidad, ya que puede
manejar cargas de trabajo de procesamiento en memoria y en disco.
*Apache Kafka: Es una plataforma de streaming distribuido que se utiliza para la ingestión,
almacenamiento y procesamiento en tiempo real de flujos de datos. Kafka es ampliamente
utilizado en arquitecturas de datos en tiempo real y en sistemas de mensajería.
*Hive: Es una herramienta de análisis de datos que permite consultar y analizar grandes
conjuntos de datos almacenados en Hadoop utilizado un lenguaje similar a SQL (HiveQL).
Hive facilita el análisis interactivo de big data sin necesidad de programación complejas.
*Apache Flink: Es un sistema de procesamiento de datos en tiempo real y por lotes que
ofrece capacidades avanzadas para el análisis de datos en streaming. Flink se utiliza para
aplicaciones que requieren baja latencia y alto rendimiento en el procesamiento de datos en
tiempo real.
*TensorFloow y PyTorch: Son bibliotecas populares de aprendizajes automáticos y deep
leaming que se utilizan para construir modelos predictivos a partir de grandes conjuntos de
datos. Estas herramientas son fundamentales para aplicaciones de inteligencia artificial
basada en big data.
Estas son solo algunas de las herramientas más comunes utilizadas en el análisis de big data.
Dependiendo de los requisitos específicos del proyecto, es posible que se utilicen otras
tecnologías y herramientas específicas para el procesamiento y análisis de grandes volúmenes
de datos
3- EJEMPLOS DE BIG DATA
10 ejemplos de Big Data
*Netflix: En primer lugar, un ejemplo clásico de big data es netflix. Esta plataforma de
streaming recopila datos sobre que series y películas ves, cuanto tiempo la vez, en que
dispositivos la vez, e incluso cuando decides pausar o volver atrás.
*Walmart: Sabias que Walmart utiliza el big data para gestionar su cadena de suministro así
es, analiza datos de ventas en tiempo real, patrones climáticos y datos de inventario para
predecir la demanda de productos en diferentes ubicaciones.
*Amazon: Tampoco nos podemos olvidar de Amazon, que utiliza algoritmos de
recomendación basadas en el big data para sugerir productos a los usuarios en función de sus
compras anteriores y comportamientos de navegación.
*American Express: Utiliza el Big Data para detectar transacciones fraudulentas en tiempo
real.
*Tesla: Utiliza el Big Data para mejorar la autonomía de sus vehículos eléctricos.
*Uber: Utiliza el Big Data para calcular tarifas en tiempo real basadas en la demanda y la
disponibilidad de conductores.
*Airbnb: Utiliza el Big Data, en este caso para recomendar alojamientos a los viajeros. Su
objetivo es analizar la preferencia de los usuarios y las características de las propiedades para
hacer coincidir a los huéspedes con lugares que se adapte a sus necesidades.
*Spotify: Para personalizar las listas de reproducción de los usuarios. Es decir, analizar el
historial de escuchar y las preferencias musicales para crear listas de reproducción a medida.
*/Boeing: Para mejorar la seguridad de sus aviones ¿de qué forma? Fácil, recopilan datos de
sensores en tiempo real.
*Procter & Gamble: Para optimizar su cadena de suministro. Analizan datos de ventas,
inventarios y demanda para garantizar que los productos estén disponibles en el momento
adecuado y en la cantidad adecuada.
4-DIFERENCIA ENTRE BIG DATA Y MINERIA DE
DATOS.
Big Data y minería de datos son dos conceptos relacionados pero diferentes en el
campo de la analítica de datos. A continuación, se detalla las principales diferencias entre
ambos:
1-BIG DATA: Se refiere a conjuntos de datos extremadamente grandes y complejos que
superan la capacidad de las herramientas tradicionales de procesamiento de datos para ser
gestionados, almacenados, analizados y visualizados de manera efectiva.
-Volumen: Se caracteriza por grandes volúmenes de datos, que pueden ser estructuradas,
semiestructurados o no estructurados.
-Velocidad: Los datos de big data suelen generarse a gran velocidad, lo que requiere un
procesamiento rápido en tiempo real.
-Variedad: Puede provenir de diversas fuentes y estar en diferentes formatos.
-Ejemplo: Redes sociales, sensores IoT, transacciones financieras, registros de servidores.
Entre otros.
2-MNERIA DE DATOS: Es el proceso de descubrir patrones significativos, tendencias y
conocimientos ocultos engrandes conjuntos de datos para tomar decisiones informadas.
-Objetivo: se centra en extraer información valiosa y conocimientos a partir de los datos para
identificar patrones.
-Técnicas: Involucra el uso de aprendizaje automático, estadísticas y visualización de datos
para analizar y comprender los datos.
Ejemplo: Identificar perfiles de clientes, predecir la demanda de productos, detectar fraudes
financieros, recomendaciones personalizadas, entre otros.
En resumen, big data se refiere al manejo y análisis de grandes volúmenes de datos,
mientras que la minería de datos se enfoca en extraer información valiosa y conocimientos
significativos a partir de esos datos para la toma de decisiones
5-ASOCIACION ENTRE BIG DATA Y MINERIA DE
DATOS.
La Asociación entre Big Data y Minería de datos se refiere al uso de grandes
volúmenes de datos para identificar patrones, tendencias y conocimientos significativos. El
big data proporciona la infraestructura necesaria para almacenar, procesar y analizar grandes
cantidades de datos, mientras que la minería de datos se encarga de extraer información útil y
relevante a partir de esos datos.
La minería de datos utiliza técnicas como el aprendizaje automático, la inteligencia
artificial y el análisis estadístico para descubrir patrones ocultos en los datos y tomar
decisiones informadas.
En resumen, el big data proporciona la infraestructura necesaria para almacenar y
procesar grandes volúmenes de datos, mientras que la minería de datos se encarga de extraer
información valiosa a partir de estos datos para tomar decisiones informadas y generar
conocimientos significativos.
INTRODUCCION
La Big Data es un conjunto de datos de gran tamaño, complejidad y velocidad de
crecimiento, que hacen difícil su captura, gestión y procesamiento atreves de herramienta
convencionales, como pueden ser las bases de datos relacionales. Cuando hablamos de gran
tamaño del volumen de datos manejados, si bien no hay un límite claramente definido, la
mayoría expertos actualmente lo sitúa en torno a los 30-50 TB como mínimo con un máximo
que alcanza los varios petabytes.
La complejidad del Big Data proviene de la naturaleza no estructurada de los datos
que generan las tecnologías modernas, como las redes sociales, los smartphones, los blogs,
los sensores que incorporan los dispositivos actuales, los sistemas de identificación por
radiofrecuencia, los GPS, etc.
Esto, junto al gran volumen de datos, hace necesario el empleo de herramientas de
Big Data tanto para la recolección de datos como para su posterior análisis. Aquí podemos
comprender claramente por que se considera a los datos como el petróleo del siglo XXI. El
Big Data sería el equivalente a la extracción de la materia prima mientras que la analítica
(esto es, la aplicación de algoritmos sobre los datos) supondría la acción de refinar esos datos
a fin de darles un valor añadido en el mercado, siendo muchas veces el paso previo para la
creación de una inteligencia artificial.