0% encontró este documento útil (0 votos)
34 vistas4 páginas

Big Data

Este documento describe las herramientas utilizadas en las diferentes etapas del ciclo de vida de Big Data, incluyendo Hadoop, Spark, Python, R, Elasticsearch, Storm y MongoDB. Explica las funciones y usos de cada herramienta en el análisis de datos, procesamiento en tiempo real, análisis predictivo y explotación de resultados.

Cargado por

fabiola arce
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
34 vistas4 páginas

Big Data

Este documento describe las herramientas utilizadas en las diferentes etapas del ciclo de vida de Big Data, incluyendo Hadoop, Spark, Python, R, Elasticsearch, Storm y MongoDB. Explica las funciones y usos de cada herramienta en el análisis de datos, procesamiento en tiempo real, análisis predictivo y explotación de resultados.

Cargado por

fabiola arce
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD AUTONOMA DEL ESTADO DE

MEXICO

FACULTAD DE INGENIERÍA

CIENCIA Y MINERIA DE DATOS

TRABAJO DE INVESTIGACIÓN
“Herramientas empleadas en el ciclo de Big
Data”

DOCENTE:
LUIS ENRIQUE FUENTES LEDEZMA

ALUMNO:
FABIOLA ARCE MARCELO
Herramientas empleadas en el ciclo de Big Data

El término “big data” abarca datos que contienen una mayor variedad y que se
presentan en volúmenes crecientes y a una velocidad superior. Esto también se
conoce como “las tres V”.
El big data está formado por conjuntos de datos de mayor tamaño y más complejos,
especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos
son tan voluminosos que el software de procesamiento de datos convencional
sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de
datos pueden utilizarse para abordar problemas empresariales que antes no hubiera
sido posible solucionar.

Ciclo de vida de Big Data


1. Análisis interno
El Ciclo de vida del Big Data tiene que empezar con la comprensión del negocio y
una justificación de la necesidad de llevar a cabo un análisis de este tipo. Aquí
también tendrían que establecerse los objetivos que se desean cumplir, deben ser
siempre alcanzables y realistas. Esta etapa de análisis permite comprender la
situación actual de la empresa y qué recursos se requerirán a lo largo del análisis.
Asimismo, se deben establecer aquellos KPI necesarios para comprender los
resultados del análisis y su capacidad para cumplir las metas y objetivos
establecidos.
Herramientas usadas
• Handoop: es una de las herramientas más longevas para análisis big data. Y
si bien no es la más novedosa, es una de las más usuales para el análisis en
tiempo real. Mientras que algunas compañías que hacen uso de ella son
Facebook y Yahoo.
• Spark: esta herramienta ofrece como mayor ventaja que puede acortar
sustancialmente los plazos. Y donde se analiza la big data. Además, el
procesamiento de datos es a través de un motor de código abierto. Esto hace
que sea realmente accesible para cualquier analista de datos. Y la
programación se puede desarrollar a través de distintos lenguajes como
Scala, Java, R o Phyton.
2. Recogida y filtrado de datos
Esta parte del Ciclo de vida del Big Data tiene que ver conocer la calidad de nuestros
datos desde el punto de vista técnico (formatos, complejidad, disponibilidad,
integridad de fuentes, etc.).
Además, se tiene que hacer un análisis descriptivo de los datos desde una
perspectiva numérica y estadística. Desde un enfoque de representación gráfica de
los datos para facilitar la inspección visual de la información y evolución temporal.
El objetivo es entender cómo están distribuidas las variables, cómo se comportan
los datasets, o cómo se relacionan unas variables con otras.
Herramientas usadas
• Phyton: esta es una herramienta sencilla, pero eficiente. Mientras que sus
principales inconvenientes son que no es adecuada para el cálculo de
grandes volúmenes de datos y su ejecución puede ser algo lenta. Perfecta
para principiantes y compañías no tan profesionales.
• Lenguaje R: Es un lenguaje de programación muy parecido al matemático y
el entorno que lo soporta se emplea para realizar principalmente cálculos
estadísticos e implementar visualizaciones de la información obtenida al
procesar los datos.

3. Analítica Predictiva y Prescriptiva


La analítica predictiva y prescriptiva pretende anticipar lo que ocurrirá para
proporcionar alternativas de actuación sobre esta previsión. Esta es una fase
crucial, puesto que los algoritmos de Machine Learning e Inteligencia Artificial entran
en juego para aprender de todos los históricos de información y abordar objetivos
concretos. Se pueden abordar los proyectos de analítica predictiva como modelos
de clasificación, modelos de regresión, modelos de segmentación o modelos de
recomendación.
Una vez se tenga el output de los modelos predictivos, se valora qué acciones son
las mejores para poner en marcha, desarrollando con ello proyectos de analítica
prescriptiva. Para ello, se llevan a cabo dos tipos de soluciones: algoritmos de
optimización y escenarios what if, para crear simulaciones sobre las previsiones y
prescripciones generadas de forma que se pueda medir el impacto.
Herramientas usadas
• Elasticsearch. Esta herramienta también facilita el procesamiento de datos
en grandes cantidades. En tanto, como característica adicional añade el
análisis de evolución en tiempo real. Además, el hecho de permitir el auxilio
de gráficos facilita la lectura de la información. Mientras que, si quieres
aumentar sus prestaciones, es posible la expansión a Elastic Stack. En tanto,
algunas compañías que hacen uso de esta herramienta son Etsy y Mozilla.
• Storm. Storm es una herramienta que permite el flujo constante de
información para análisis en tiempo real y todo con gran rapidez. Algunas de
las empresas que aprovechan sus características, debido a su velocidad, son
la mayoría de las redes sociales. Permitiendo analizar el cómo emplean los
usuarios los servicios de las redes.
• MongoDB. Ahora bien, si lo que se busca es el análisis de datos
inestructurados o semiestructurados, o para decirlo mejor en grupos,
entonces MongoDB es la opción adecuada. Y es que, esta herramienta se
ha optimizado para trabajar en este sentido, ya que fue desarrollada en
NoSQL. Una herramienta perfecta para trabajar como Apps de móviles.

4. Análisis y explotación de resultados


En esta etapa se desarrolla la integración de conjuntos de datos con el fin de dar
una visión unificada de la información. A lo largo de esta etapa del ciclo se pueden
presentar varios problemas de estructura de los datos y etiquetas, que son precisos
resolver.
La explotación de los resultados de los análisis se adapta a las necesidades de los
usuarios siempre con el objetivo de que se apliquen en su día a día.
Toda la información útil extraída ha de “traducirse” en forma de informes que
permitan la correcta interpretación de estos. La explotación de resultados puede
hacerse a través de informes interactivos, herramientas de visualización, ficheros
de integración o soluciones integradas.
• Apache Spark: Se trata de un framework para el procesamiento de datos. Su
principal característica es que su arquitectura es distribuida, es decir, el
tratamiento de los datos es asignado a las diferentes máquinas del sistema
que lo ejecutan, obteniendo unos tiempos de respuesta muy bajos.
• Apache Storm: Es un sistema distribuido de procesamiento en tiempo real de
flujos de datos que provienen de una determinada fuente y que permite
procesar de manera cuasi instantánea elevadas cantidades de datos y
transformarlos en información que pueda ser monitorizada y analizada al
momento.

REFERENCIAS

• [Link]
• [Link]
• [Link]

También podría gustarte