1
INSTITUTO SUPERIOR CERTUS
BIG DATA APLICADA A LOS NEGOCIOS
● TEMA : HERRAMIENTAS O TECNOLOGÍAS ANALÍTICA DE
BIG DATA
● DOCENTE : JOHNNY ABELARDO ANCO CARRANZA
● INTEGRANTES
-Maryori Aguilar Sumire
-Leyla Ninoska Barreto Aleman
-Romario Cuadros Cuadros
-Sebastian Misael Puma Villalobos
-Raul Jesus Quispe Huaracallo
2
3
4.- Introducción:
Como hemos visto a lo largo del curso, los datos desempeñan un papel fundamental en
nuestra sociedad y nos permiten comprender el mundo que nos rodea. En las últimas
décadas, el auge de Internet y de los servicios de la Web 2.0, así como de los dispositivos
móviles y los sensores, han hecho que se creen inmensos conjuntos de datos.
Este «torrente creciente» de datos generados, sumado a la disponibilidad de tecnologías
informáticas a la carta (como la computación en la nube), ha llevado a la aparición del
concepto de big data, que hace referencia a los datos que superan la capacidad de
procesamiento de los sistemas de bases de datos convencionales.
¿Te has preguntado cómo saben empresas como Amazon, Spotify o Netflix lo que «también
podría gustarte»? Los motores de recomendación son una aplicación habitual del big data.
Amazon, Netflix y Spotify utilizan algoritmos basados en big data para ofrecerte
recomendaciones concretas en función de tus preferencias y de lo que has hecho a lo largo
del tiempo. Siri y Alexa se basan en big data para responder a las diferentes preguntas que
pueden hacerles los usuarios. Y, ahora, Google es capaz de ofrecer recomendaciones basadas
en big data en los propios dispositivos de los usuarios. Pero ¿cómo influyen esas
recomendaciones en lo que haces con tu tiempo, en los productos que compras o en las
opiniones que lees? ¿Por qué estas grandes empresas invierten tanto dinero en ello? ¿Solo te
conocen o también influyen en ti? Aunque los sistemas de recomendación representan hasta
un tercio del tráfico de muchos sitios web populares, no sabemos el poder que ejercen sobre
nuestras decisiones.
4
5.- Marco teórico
El procesamiento de datos se puede realizar utilizando tres métodos, es decir, manual,
mecánico y electrónico. El objetivo es aumentar el valor de la información y facilitar la toma
de decisiones. Esto permite a las empresas mejorar sus operaciones y tomar decisiones
estratégicas oportunas
❖ Recopilación de datos:
Este paso implica la recolección de los datos necesarios para el análisis. Los datos
pueden provenir de diversas fuentes, como bases de datos internas, archivos de
registros, encuestas, sensores, redes sociales, entre otros.
❖ Preparación de datos:
En este punto comienza la preparación para su organización, la detección de errores y
el descarte de información repetitiva e incompleta. De este modo, pasa a seleccionar
la información necesaria y puntual con la que se trabajará para el procesamiento y
análisis de datos.
❖ Introducción de datos:
Los datos ya seleccionados ahora son enviados a sus destinos correspondientes,
traducidos a un lenguaje entendible.
A partir de aquí, los datos en bruto comienzan a tomar forma como información útil,
que podrá visualizarse, por ejemplo, en un CRM o en un almacén de datos. Por ello
también se define como el “pre-procesamiento”.
❖ Procesamiento / limpieza de datos:
En esta etapa, los datos procesados por la etapa anterior son finalmente preparados y
optimizados para su uso final. Esto ocurre a través de algoritmos por medio de una
técnica de programación denominada machine learning.
Lo que ayuda a tu computadora a aprender de forma autónoma sobre todos los datos
e información que está recibiendo para que actúe como corresponda. Así podrá
realizar la actividad prevista de diagnóstico o estudio de la interpretación realizada.
❖ Interpretación de datos
¿Recuerdas las gráficas, tablas, documentos y demás que tendrías para trabajar
óptimamente? Es en este punto será cuando finalmente tendrás todo el resultado de
las etapas previas. De una forma totalmente entendible para ti y los miembros que la
requieran.
Ahora tus proyectos de analítica necesarios para la optimización de tu empresa podrán
ser realizados con mayor facilidad, rapidez y eficacia. Mejorando así la productividad
del trabajo de todos de forma considerable.
❖ Almacenamiento de datos
Finalmente, queda la última etapa de este proceso que consiste en el almacenamiento
de toda esta información útil resultante del procesamiento y análisis de datos.
Para su uso inmediato o posterior según convenga, con la tranquilidad de que estarán
conservados bajo la legislación de protección de datos.
5
6.- Descripción de herramientas:
Uno de los objetivos del uso de las tecnologías Big Data es el de transformar los datos en
conocimiento útil para la empresa, y para ello se necesitan herramientas Big Data que nos
ayudan a analizar, procesar y almacenar todos los datos recogidos. Un gran número de las
mejores herramientas usadas en Big Data son open source, lo que da fe del éxito de este
modelo de desarrollo, además de las alternativas de pago.
❖ [Link]
La biblioteca Hadoop utiliza modelos de programación simples para el
almacenamiento y procesamiento distribuido de grandes conjuntos de datos en
grupos, dando redundancia para no perder nada y al mismo tiempo, aprovechando
muchos procesos a la vez.
Soporta diferentes sistemas operativos y también se usa frecuentemente sobre
cualquiera de las principales plataformas en la nube, como Amazon o Google Cloud
❖ 2. ELASTICSEARCH
Es una potente herramienta para la búsqueda entre grandes cantidades de datos,
especialmente cuando los datos son de tipo complejo.
Nos permite indexar y analizar en tiempo real un gran volumen de datos y hacer
consultas sobre ellos. Un ejemplo de uso son las consultas de texto completo; al estar
los datos indexados, los resultados se obtienen de forma muy rápida.
Podemos hacer búsquedas de texto complicadas, visualizar el estado de nuestros
nodos y escalar sin demasiadas necesidades, si se diera el caso de que necesitáramos
más potencia.
❖ 3. APACHE SPARK
Es un motor de procesamiento de datos de código abierto realmente rápido.
Creado por Matei Zaharia en la Universidad de Berkeley, se considera el primer
software open source que hace la programación distribuida realmente accesible a los
científicos de datos.
❖ 4. APACHE STORM
Es un sistema de computación distribuida en tiempo real orientado a procesar flujos
constantes de datos, por ejemplo, datos de sensores que se emiten con una alta
frecuencia o datos que provengan de las redes sociales, donde a veces es importante
saber qué se está compartiendo en este momento.
Puede ser utilizado para procesar los logos de nuestras aplicaciones para ver el uso
que se hace de los distintos servicios y gestión de errores; para extraer información de
redes sociales a través de sus APIs y analizar un fenómeno en tiempo real; recoger y
procesar datos de sensores; buscadores verticales, web analytics, etc.
6
❖ 5. LENGUAJE R
R es un lenguaje de programación y entorno de software para cálculo estadístico y
gráficos. El lenguaje R es de los más usados por los estadistas y otros
profesionales interesados en la minería de datos, la investigación bioinformática y las
matemáticas financieras.
❖ 6. PYTHON
Es un lenguaje avanzado de programación con la ventaja de ser relativamente fácil de
usar para usuarios que no estén familiarizados con la informática de manera
profesional, pero que necesitan trabajar con análisis de datos (estadistas, biólogos,
físicos, lingüistas…).
Es una herramienta para Big Data muy eficiente, en parte debido a la gran comunidad
existente, por lo que Python dispone de muchas librerías ya hechas por otros usuarios.
Sin embargo, tiene en su contra que no es un lenguaje muy rápido en su ejecución, por
lo que suele ser empleado para tareas de integración o tareas donde no haya cálculos
pesados.
7
7.- Uso de las herramientas de big data.
-EMPRESAS DE TECNOLOGÍA Y REDES SOCIALES
Empresas como Google, Facebook, Twitter y LinkedIn son pioneras en el uso de tecnologías de
big data. Utilizan herramientas como Hadoop, Apache Spark y sistemas de almacenamiento
distribuido para analizar grandes cantidades de datos de usuarios y generar recomendaciones
personalizadas, anuncios dirigidos y análisis de tendencias.
-COMPAÑIAS DE COMERCIO ELECTRONICO
Empresas como Amazon y Alibaba utilizan tecnologías de big data para analizar el
comportamiento de compra de los clientes, predecir la demanda de productos, optimizar la
logística y ofrecer recomendaciones de productos personalizadas. Utilizan herramientas como
Hadoop, Apache Spark y bases de datos NoSQL para manejar grandes volúmenes de
transacciones y datos de inventario.
-EMPRESAS FINANCIERAS
Bancos, instituciones financieras y empresas de servicios de pago utilizan tecnologías de big
data para detectar fraudes, analizar el riesgo crediticio, optimizar carteras de inversión y
mejorar la experiencia del cliente. Utilizan herramientas de procesamiento de datos en
tiempo real como Apache Kafka y plataformas de machine learning como TensorFlow y scikit-
learn.
-EMPRESAS DE ATENCIÓN MÉDICA
Hospitales, compañías farmacéuticas y empresas de seguros de salud utilizan tecnologías de
big data para analizar datos de pacientes, identificar patrones de enfermedades, mejorar la
eficiencia operativa y desarrollar tratamientos personalizados. Utilizan herramientas como
Hadoop, bases de datos NoSQL y herramientas de análisis de datos de salud específicas.
-EMPRESAS DE TRANSPORTE Y LOGÍSTICA
Compañías de transporte, aerolíneas, empresas de entrega y servicios de transporte
compartido utilizan tecnologías de big data para optimizar rutas, mejorar la planificación de la
capacidad, predecir la demanda de servicios y ofrecer servicios de localización en tiempo real.
Utilizan herramientas de procesamiento de streaming como Apache Kafka y sistemas de
gestión de datos geoespaciales.
8
8.- Comparativa de herramientas de Big Data.
Python Python es un lenguaje de programación versátil y
ampliamente utilizado en el campo del análisis de datos.
Es conocido por su simplicidad y facilidad de uso, ya que
cuenta con una amplia variedad de bibliotecas para el
procesamiento y análisis de datos.
Lenguaje R R es otro lenguaje de programación popular en el campo del
análisis de datos y la estadística
Está diseñado específicamente para el análisis de datos y
cuenta con una amplia gama de paquetes y librerías
especializadas en estadísticas y visualización de datos.
R es especialmente adecuado para análisis exploratorio y
modelado estadístico.
Hadoop Hadoop es una framework de procesamiento distribuido
diseñado para manejar grandes volúmenes de datos.
Es escalable, tolerante a fallos y puede procesar grandes
cantidades de datos en clústeres de servidor.
Apache spark Spark ofrece capacidades de procesamiento en memoria y es
conocido por su velocidad y facilidad de uso.
Puede procesar datos en tiempo real, realizar análisis
interactivos y ejecutar algoritmos de aprendizaje automático
Apache storm Está diseñado para el procesamiento de datos en streaming y
es capaz de procesar grandes volúmenes de datos a alta
velocidad.
Es escalable y tolerante a fallos, lo que lo hace adecuado para
aplicaciones que requieren el procesamiento de datos en
tiempo real
Elasticsearch Es un motor de búsqueda y análisis distribuido que se utiliza
comúnmente para el análisis de datos en tiempo real y la
búsqueda de texto completo. Elasticsearch también ofrece
potentes capacidades de búsqueda, así como la capacidad de
visualizar datos en tiempo real.
9. Ventajas de las herramientas de Big Data.
9
El uso de herramientas de Big Data ofrece múltiples ventajas que pueden variar según la
empresa y sus objetivos específicos. Sin embargo, en términos generales, estos beneficios
destacan en cualquier sector:
❖ Eficiencia en la gestión del tiempo y recursos: Digitalizar y emplear Big Data Reduce
drásticamente el tiempo empleado en buscar y transferir datos, lo que facilita el
acceso instantáneo a la información.
❖ Mejora del rendimiento empresarial: El Big Data agiliza y resuelve
rápidamente procesos y problemas, permitiendo que la empresa mantenga su
eficiencia incluso en situaciones imprevistas, como la ausencia de empleados.
❖ Segmentación precisa del público objetivo: El análisis exhaustivo de variables
mediante Big Data facilita la identificación precisa de grupos de clientes, lo
que lleva a estrategias de marketing más efectivas.
❖ Toma de decisiones más fundamentadas: Las herramientas de Big Data proporcionan
una visión completa de todas las variables relevantes, ayudan a tomar decisiones más
informadas y eficaces.
❖ Estímulo a la innovación de productos y servicios: El Big Data aporta
información valiosa para la investigación, desarrollo e innovación, lo que es esencial
para crear nuevos productos y servicios.
❖ Competitividad: Las organizaciones que aprovechan las herramientas de Big Data
pueden obtener una ventaja competitiva al tomar decisiones basadas en datos y
anticipar las necesidades del mercado.
❖ Escalabilidad: Las soluciones de Big Data son escalables y pueden adaptarse
a las necesidades cambiantes de una organización a medida que esta crece o modifica
su enfoque.
❖ Integración con diversas fuentes de datos: Estas herramientas pueden
integrarse con una amplia variedad de fuentes de datos, incluyendo datos
estructurados y no estructurados, redes sociales, sensores, registros de
transacciones y más.
❖ Detección de patrones y tendencias: Las herramientas de Big Data Emplean
algoritmos avanzados para descubrir patrones, tendencias y relaciones ocultas en
los datos, lo que puede ayudar a las organizaciones a tomar decisiones más
informadas
10
10. Beneficios de las herramientas de Big Data.
Python 1. Versatilidad: es un lenguaje de programación versátil que se puede
utilizar en una amplia variedad de aplicaciones, desde desarrollo web
hasta análisis de datos y aprendizaje automático.
2. Facilidad de aprendizaje: Python es conocido por su sintaxis clara y
legible, lo que lo hace ideal para principiantes y facilita la colaboración
en equipos de desarrollo.
3. Gran cantidad de bibliotecas: Python cuenta con una amplia variedad
de bibliotecas y frameworks que facilitan el desarrollo de aplicaciones
en diferentes áreas, como NumPy, Pandas, Django, Flask, entre otros.
4. Comunidad activa: Python tiene una comunidad activa de
desarrolladores que contribuyen con bibliotecas, tutoriales y recursos,
lo que facilita el aprendizaje y la resolución de problemas.
5. Integración con otras tecnologías: Python se integra fácilmente con
otras tecnologías y lenguajes de programación, lo que lo hace ideal para
proyectos que requieren interoperabilidad
Lenguaje R 1. Análisis estadístico avanzado: R es ampliamente utilizado en análisis
estadístico y minería de datos, con una amplia variedad de paquetes y
funciones especializadas.
2. Visualización de datos: R. Ofrece potentes herramientas de
visualización que permiten crear gráficos y visualizaciones interactivas
de manera sencilla.
3. Comunidad activa: R. Cuenta con una gran comunidad de usuarios y
desarrolladores que comparten conocimientos, paquetes y recursos, lo
que facilita el aprendizaje y la colaboración.
4. Flexibilidad: R es un lenguaje flexible que permite manipular y
analizar datos de diversas fuentes y formatos, adaptándose a diferentes
necesidades de análisis.
5. Integración con otras herramientas: R se puede integrar con otras
herramientas y lenguajes de programación, lo que lo hace versátil para
trabajar en entornos de análisis de datos complejos
Hadoop 1. Escalabilidad: Permite procesar grandes volúmenes de datos de
forma distribuida, lo que facilita la habilidad horizontal.
2. Costo-efectividad: Almacenamiento y procesamiento de datos a gran
escala a un costo más bajo en comparación con soluciones tradicionales.
3. Tolerancia a fallos: Hadoop está diseñado para ser tolerante a fallos,
lo que garantiza la disponibilidad de los datos incluso en caso de fallos
en los nodos.
4. Procesamiento paralelo: Permite el procesamiento paralelo de datos,
lo que acelera el tiempo de procesamiento de grandes conjuntos de
datos.
5. Flexibilidad: Hadoop es compatible con una amplia variedad de tipos
de datos y formatos, lo que lo hace versátil para diferentes necesidades
de análisis de datos.
11
Apache spark 1. Velocidad: Spark es conocido por su velocidad de procesamiento de
datos, ya que puede realizar operaciones en memoria y en disco de
manera eficiente.
2. Procesamiento en tiempo real Permite el procesamiento de datos en
tiempo, lo que es crucial para aplicaciones que requieren análisis en
tiempo real.
3. Facilidad de uso: Spark ofrece APIs en varios lenguajes como Scala,
Java, Python y SQL, lo que facilita a los desarrolladores trabajar con él.
4. Escalabilidad: Puede escalar horizontalmente para manejar grandes
volúmenes de datos y cargas de trabajo distribuidas.
5. Soporte para múltiples fuentes de datos: Spark puede conectarse a
diversas fuentes de datos como HDFS, Cassandra, HBase, entre otros,
facilitando la integración con diferentes sistemas.
Apache 1. Procesamiento en tiempo real: Apache Storm está diseñado para
storm procesar datos en tiempo real, lo que lo hace ideal para aplicaciones
que requieren análisis y acciones inmediatas.
2. Escalabilidad: Storm es altamente escalable y puede manejar grandes
volúmenes de datos y cargas de trabajo distribuidas de manera
eficiente.
3. Tolerancia a fallos: Storm es tolerante a fallos y puede recuperarse
automáticamente de fallos en los nodos, garantizando la disponibilidad
y confiabilidad del sistema.
4. Integración con otras tecnologías: Se puede integrar fácilmente con
otras tecnologías como bases de datos, sistemas de mensajería y
herramientas de procesamiento de datos, lo que amplía su
funcionalidad.
5. Flexibilidad: Storm ofrece una arquitectura flexible que permite
diseñar topologías de procesamiento de datos personalizadas para
adaptarse a diferentes necesidades y casos de uso.
Elasticsearch 1. Búsqueda rápida y eficiente: Elasticsearch es conocido por su
capacidad de búsqueda y recuperación de datos de forma rápida y
eficiente, incluso en grandes volúmenes de información.
2. Escalabilidad: Puede escalar horizontalmente para manejar grandes
cantidades de datos y consultas simultáneas.
3. Facilidad de uso: Elasticsearch es fácil de configurar y utilizar, con una
API RESTful que facilita la integración con otras aplicaciones.
4. Análisis de texto completo: Ofrece capacidades avanzadas de análisis
de texto completo, incluyendo búsqueda de texto, análisis de relevancia
y resaltado de resultados.
5. Visualización de datos: Se puede integrar con herramientas de
visualización como Kibana para crear paneles interactivos y tableros de
control basados en los datos indexados en Elasticsearch.
12
11. Conclusiones.
Big Data es un término que describe el gran volumen de datos, tanto estructurados como no
estructurados, que inundan los negocios cada día. Pero no es la cantidad de datos lo que es
importante. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos.
❖ Python:
El lenguaje de programación Python es ampliamente utilizado por empresas de todo el
mundo para construir aplicaciones web, analizar datos, automatizar operaciones y
crear aplicaciones empresariales fiables y escalables
❖ Hadoop:
Hadoop es una estructura de software de código abierto para almacenar datos y
ejecutar aplicaciones en clústeres de hardware comercial. Proporciona
almacenamiento masivo para cualquier tipo de datos, enorme poder de
procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente
ilimitados
❖ LenguajeR:
Es un lenguaje bastante adecuado para la estadística, ya que permite manipular los
datos rápidamente y de forma precisa. Se puede automatizar fácilmente, gracias a la
creación de scripts que automatizan procesos, por ejemplo, leer datos o hacer
operaciones con los datos, y hacerlo siempre de forma automática
13
12. Referencias bibliográficas
FUENTE.
[Link]
FUENTE.
[Link]
introduction-to-big-data/
FUENTE.
[Link]
FUENTE:
[Link]