“AÑO DE LA UNIDAD, LA PAZ Y EL DESARROLLO”
EVIDENCIA 1: BIG DATA
CURSO:
BIG DATA APLICADA A LOS NEGOCIOS
DOCENTE:
WILMER A. PONCE DE LEON FLORINDEZ
INTEGRANTES:
Indice
1. Introducción
2. Marco Teórico
Para poder trabajar con datos es importante tener en cuenta la metodología del
procesamiento de datos. A continuación, daremos a conocer las 5 etapas del
procesamiento de datos
Recopilación de datos
Este es el primer paso. Los datos se obtienen de las fuentes disponibles, incluidos los
archivos de texto y los almacenes de datos.
Preparación de datos
Es la etapa en la que los datos sin procesar se limpian y organizan para la siguiente
etapa. El propósito de este paso es eliminar los datos incorrectos y comenzar a crear
datos de alta calidad para una mejor inteligencia empresarial.
La forma de recogida de datos más utilizada son las encuestas de investigación. Sin
embargo, con una plataforma de investigación de mercado madura, puedes recopilar
datos cualitativos a través de grupos de discusión, módulos de debate, etc.
Procesamiento y limpieza de datos
Se puede realizar mediante técnicas de filtrado, análisis e visualización de datos e
incluso con algoritmos de aprendizaje automático, aunque el proceso en sí puede
variar ligeramente dependiendo de la fuente de datos que se procesa.
Interpretación de datos
La etapa de salida / interpretación es la etapa en la que los datos son finalmente
utilizables para los usuarios. Los miembros de la empresa o institución ahora pueden
comenzar a administrar los datos para sus propios proyectos de análisis de datos.
Almacenamiento de datos
Una vez que se procesan todos los datos, se almacenan para su uso futuro. Cuando los
datos se almacenan correctamente, los miembros de la organización pueden acceder a
ellos rápida y fácilmente cuando sea necesario
3. Descripción de herramientas
Python
Python es un lenguaje de programación ampliamente utilizado en las aplicaciones web,
el desarrollo de software, la ciencia de datos y el machine learning (ML). Los
desarrolladores utilizan Python porque es eficiente y fácil de aprender, además de que
se puede ejecutar en muchas plataformas diferentes. El software Python se puede
descargar gratis, se integra bien a todos los tipos de sistemas y aumenta la velocidad
del desarrollo.
Hadoop
Hadoop es una estructura de software de código abierto para almacenar datos y
ejecutar aplicaciones en clústeres de hardware comercial. Proporciona
almacenamiento masivo para cualquier tipo de datos, enorme poder de
procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente
ilimitados.
Mongodb
MongoDB es una base de datos orientada a documentos. Esto quiere decir que en
lugar de guardar los datos en registros, guarda los datos en documentos. Estos
documentos son almacenados en BSON, que es una representación binaria de JSON.
Lenguajes R
es un lenguaje de programación diseñado para realizar análisis estadísticos y crear
gráficos a partir de datos, proporcionando un amplio abanico de herramientas
estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series
temporales, algoritmos de clasificación y agrupamiento, etc..) y gráficas.
Apache Spark
Apache Spark es un motor unificado de analíticas para procesar datos a gran escala
que integra módulos para SQL, streaming, aprendizaje automático y procesamiento de
grafos. Spark se puede ejecutar de forma independiente o en Apache Hadoop, Apache
Mesos, Kubernetes, la nube y distintas fuentes de datos.
Elasticsearch
Elasticsearch es un motor de búsqueda y analítica distribuido, gratuito y abierto para
todos los tipos de datos, incluidos textuales, numéricos, geoespaciales, estructurados y
no estructurados. Elasticsearch está desarrollado a partir de Apache Lucene y fue
presentado por primera vez en 2010 por Elasticsearch N.V. (ahora conocido como
Elastic).
4. Usos de las herramientas de Big Data
Python
Python tienen una amplia gama de usos. Desde procesamiento de datos, al aprendizaje
de máquina. Por ello, Python es elegido como el lenguaje de programación de muchas
empresas y organizaciones, un claro ejemplo es Facebook
Netflix
Netflix utiliza Python para automatizar tareas, para explorar datos y limpieza, junto a
otros usos de visualización. Otra gran área donde Python resulta imprescindible en el
entrenamiento para aprendizaje automático, en algoritmos de recomendación,
algoritmos para la elección del arte que muestra o algoritmos de marketing. En líneas
generales, ser intuitivo para resolver problemas de red, la clave del uso de Python en
Netflix.
Fuente: https://www.americatv.com.pe/cinescape/entretenimiento/netflix-se-pone-mas-
estricto-asi-evitara-que-los-usuarios-compartan-contrasena/
Hadoop
Yahoo
Hadoop es un proyecto Apache de alto nivel, iniciado y dirigido por Yahoo !. Se basa en
una comunidad activa de contribuyentes de todo el mundo para su éxito. Con una
importante inversión en tecnología de Yahoo !, Apache Hadoop se ha convertido en
una tecnología de computación en la nube lista para la empresa. Se está convirtiendo
en el marco de facto de la industria para el procesamiento de big data.
Fuente : https://elordenmundial.com/hoy-en-la-historia/2-marzo/2-de-marzo-de-1995-se-
funda-yahoo-buscador-web-y-plataforma-digital-pionera/
Mongodb
Sprinklr
La empresa de tecnología social, Sprinklr, se basa en MongoDB para almacenar la
actividad social de sus más de mil clientes -incluyendo 40% de las empresas Fortune
50- a través de más de 20 canales, incluyendo mensajes de Facebook, tweets y subidas
de YouTube. La implementación MongoDB de Sprinklr maneja más de tres millones de
transacciones por minuto, y es compatible con la capacidad de la compañía para lanzar
al menos una funcionalidad importante y más de 100 características cada mes.
Fuente: https://www.sprinklr.com/es/products/marketing-and-advertising/marketing-analytics/
Lenguajes R
Mozilla
Es una fundación que cuenta con varias herramientas y el popular navegador web
Mozilla Firefox. Mozilla usa el lenguaje de programación R para analizar, estudiar y
visualizar la actividad web y en base a los datos obtenidos realizar próximos cambios y
agregar nuevas features a su navegador y herramientas similares.
Fuente: https://blog.nubecolectiva.com/10-empresas-que-usan-el-lenguaje-de-programacion-r/
5. Ventajas de las herramientas de Big Data
a. Se debe realizar una descripción de las ventajas de cada herramienta investigada
6. Beneficios de las herramientas de Big Data
a. Se debe realizar una descripción de los beneficios de cada herramienta investigada
7. Conclusiones
a. Se debe indicar al menos dos conclusiones de cada herramienta investigada
8. Referencias bibliográficas
https://codenotch.com/blog/los-6-pasos-fundamentales-en-el-procesamiento-de-datos/
https://aws.amazon.com/es/what-is/python/
https://www.sas.com/es_pe/insights/big-data/hadoop.html
https://www.genbeta.com/desarrollo/mongodb-que-es-como-funciona-y-cuando-
podemos-usarlo-o-no
https://www.baoss.es/te-contamos-que-es-el-lenguaje-r/
https://cloud.google.com/learn/what-is-apache-spark?hl=es
https://www.elastic.co/es/what-is/elasticsearch
https://www.tokioschool.com/noticias/quienes-usan-python-empresas/
#:~:text=Instagram%2C%20Youtube%2C%20Google%2C%20Facebook,deep%20learning
%20o%20machine%20learning.
https://aptude.com/es/blog/entrada/5-historias-de-%C3%A9xito-de-implementaci
%C3%B3n-de-hadoop/
https://cioperu.pe/articulo/20112/9-historias-de-exito-de-mongodb/
https://blog.nubecolectiva.com/10-empresas-que-usan-el-lenguaje-de-programacion-r/