Big Data

Este documento describe las herramientas utilizadas en las diferentes etapas del ciclo de vida de Big Data, incluyendo Hadoop, Spark, Python, R, Elasticsearch, Storm y MongoDB. Explica las funciones y usos de cada herramienta en el análisis de datos, procesamiento en tiempo real, análisis predictivo y explotación de resultados.

Cargado por

fabiola arce

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

34 vistas4 páginas

Big Data

Cargado por

fabiola arce

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD AUTONOMA DEL ESTADO DE

MEXICO

FACULTAD DE INGENIERÍA

CIENCIA Y MINERIA DE DATOS

TRABAJO DE INVESTIGACIÓN
“Herramientas empleadas en el ciclo de Big
Data”

DOCENTE:
LUIS ENRIQUE FUENTES LEDEZMA

ALUMNO:
FABIOLA ARCE MARCELO
Herramientas empleadas en el ciclo de Big Data

El término “big data” abarca datos que contienen una mayor variedad y que se
presentan en volúmenes crecientes y a una velocidad superior. Esto también se
conoce como “las tres V”.
El big data está formado por conjuntos de datos de mayor tamaño y más complejos,
especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos
son tan voluminosos que el software de procesamiento de datos convencional
sencillamente no puede gestionarlos. Sin embargo, estos volúmenes masivos de
datos pueden utilizarse para abordar problemas empresariales que antes no hubiera
sido posible solucionar.

Ciclo de vida de Big Data

1. Análisis interno
El Ciclo de vida del Big Data tiene que empezar con la comprensión del negocio y
una justificación de la necesidad de llevar a cabo un análisis de este tipo. Aquí
también tendrían que establecerse los objetivos que se desean cumplir, deben ser
siempre alcanzables y realistas. Esta etapa de análisis permite comprender la
situación actual de la empresa y qué recursos se requerirán a lo largo del análisis.
Asimismo, se deben establecer aquellos KPI necesarios para comprender los
resultados del análisis y su capacidad para cumplir las metas y objetivos
establecidos.
Herramientas usadas
• Handoop: es una de las herramientas más longevas para análisis big data. Y
si bien no es la más novedosa, es una de las más usuales para el análisis en
tiempo real. Mientras que algunas compañías que hacen uso de ella son
Facebook y Yahoo.
• Spark: esta herramienta ofrece como mayor ventaja que puede acortar
sustancialmente los plazos. Y donde se analiza la big data. Además, el
procesamiento de datos es a través de un motor de código abierto. Esto hace
que sea realmente accesible para cualquier analista de datos. Y la
programación se puede desarrollar a través de distintos lenguajes como
Scala, Java, R o Phyton.
2. Recogida y filtrado de datos
Esta parte del Ciclo de vida del Big Data tiene que ver conocer la calidad de nuestros
datos desde el punto de vista técnico (formatos, complejidad, disponibilidad,
integridad de fuentes, etc.).
Además, se tiene que hacer un análisis descriptivo de los datos desde una
perspectiva numérica y estadística. Desde un enfoque de representación gráfica de
los datos para facilitar la inspección visual de la información y evolución temporal.
El objetivo es entender cómo están distribuidas las variables, cómo se comportan
los datasets, o cómo se relacionan unas variables con otras.
Herramientas usadas
• Phyton: esta es una herramienta sencilla, pero eficiente. Mientras que sus
principales inconvenientes son que no es adecuada para el cálculo de
grandes volúmenes de datos y su ejecución puede ser algo lenta. Perfecta
para principiantes y compañías no tan profesionales.
• Lenguaje R: Es un lenguaje de programación muy parecido al matemático y
el entorno que lo soporta se emplea para realizar principalmente cálculos
estadísticos e implementar visualizaciones de la información obtenida al
procesar los datos.

3. Analítica Predictiva y Prescriptiva

La analítica predictiva y prescriptiva pretende anticipar lo que ocurrirá para
proporcionar alternativas de actuación sobre esta previsión. Esta es una fase
crucial, puesto que los algoritmos de Machine Learning e Inteligencia Artificial entran
en juego para aprender de todos los históricos de información y abordar objetivos
concretos. Se pueden abordar los proyectos de analítica predictiva como modelos
de clasificación, modelos de regresión, modelos de segmentación o modelos de
recomendación.
Una vez se tenga el output de los modelos predictivos, se valora qué acciones son
las mejores para poner en marcha, desarrollando con ello proyectos de analítica
prescriptiva. Para ello, se llevan a cabo dos tipos de soluciones: algoritmos de
optimización y escenarios what if, para crear simulaciones sobre las previsiones y
prescripciones generadas de forma que se pueda medir el impacto.
Herramientas usadas
• Elasticsearch. Esta herramienta también facilita el procesamiento de datos
en grandes cantidades. En tanto, como característica adicional añade el
análisis de evolución en tiempo real. Además, el hecho de permitir el auxilio
de gráficos facilita la lectura de la información. Mientras que, si quieres
aumentar sus prestaciones, es posible la expansión a Elastic Stack. En tanto,
algunas compañías que hacen uso de esta herramienta son Etsy y Mozilla.
• Storm. Storm es una herramienta que permite el flujo constante de
información para análisis en tiempo real y todo con gran rapidez. Algunas de
las empresas que aprovechan sus características, debido a su velocidad, son
la mayoría de las redes sociales. Permitiendo analizar el cómo emplean los
usuarios los servicios de las redes.
• MongoDB. Ahora bien, si lo que se busca es el análisis de datos
inestructurados o semiestructurados, o para decirlo mejor en grupos,
entonces MongoDB es la opción adecuada. Y es que, esta herramienta se
ha optimizado para trabajar en este sentido, ya que fue desarrollada en
NoSQL. Una herramienta perfecta para trabajar como Apps de móviles.

4. Análisis y explotación de resultados

En esta etapa se desarrolla la integración de conjuntos de datos con el fin de dar
una visión unificada de la información. A lo largo de esta etapa del ciclo se pueden
presentar varios problemas de estructura de los datos y etiquetas, que son precisos
resolver.
La explotación de los resultados de los análisis se adapta a las necesidades de los
usuarios siempre con el objetivo de que se apliquen en su día a día.
Toda la información útil extraída ha de “traducirse” en forma de informes que
permitan la correcta interpretación de estos. La explotación de resultados puede
hacerse a través de informes interactivos, herramientas de visualización, ficheros
de integración o soluciones integradas.
• Apache Spark: Se trata de un framework para el procesamiento de datos. Su
principal característica es que su arquitectura es distribuida, es decir, el
tratamiento de los datos es asignado a las diferentes máquinas del sistema
que lo ejecutan, obteniendo unos tiempos de respuesta muy bajos.
• Apache Storm: Es un sistema distribuido de procesamiento en tiempo real de
flujos de datos que provienen de una determinada fuente y que permite
procesar de manera cuasi instantánea elevadas cantidades de datos y
transformarlos en información que pueda ser monitorizada y analizada al
momento.

REFERENCIAS

• [Link]
• [Link]
• [Link]

También podría gustarte

AA1 BigData
Aún no hay calificaciones
AA1 BigData
14 páginas
Aa1 Big Data
Aún no hay calificaciones
Aa1 Big Data
8 páginas
Big Data en Negocios Financieros
Aún no hay calificaciones
Big Data en Negocios Financieros
17 páginas
Grupo 3 Aa1
Aún no hay calificaciones
Grupo 3 Aa1
18 páginas
Big Data Aa1
Aún no hay calificaciones
Big Data Aa1
13 páginas
Evidencia 1 - Grupo 10
Aún no hay calificaciones
Evidencia 1 - Grupo 10
16 páginas
Fases del Ciclo de Vida del Big Data
Aún no hay calificaciones
Fases del Ciclo de Vida del Big Data
4 páginas
Notas Curso Google Analytics
Aún no hay calificaciones
Notas Curso Google Analytics
9 páginas
Ciclo de Vida Del Big Data
Aún no hay calificaciones
Ciclo de Vida Del Big Data
13 páginas
3 Herramientas y Tecnologías
Aún no hay calificaciones
3 Herramientas y Tecnologías
24 páginas
Herramientas Big Data: Python, Hadoop y Spark
Aún no hay calificaciones
Herramientas Big Data: Python, Hadoop y Spark
16 páginas
Conceptos de Big Data
Aún no hay calificaciones
Conceptos de Big Data
5 páginas
Trabajo Completao
Aún no hay calificaciones
Trabajo Completao
10 páginas
Aa1 Alvares Castillo Orosco Hurtado
Aún no hay calificaciones
Aa1 Alvares Castillo Orosco Hurtado
12 páginas
Big Data en Negocios: Herramientas y Aplicaciones
Aún no hay calificaciones
Big Data en Negocios: Herramientas y Aplicaciones
11 páginas
Big Data Grupo 7
Aún no hay calificaciones
Big Data Grupo 7
9 páginas
Trabajo1 Big Data
Aún no hay calificaciones
Trabajo1 Big Data
20 páginas
Aaaaaaaaaaaaaaaaaaaaaaaaa
Aún no hay calificaciones
Aaaaaaaaaaaaaaaaaaaaaaaaa
6 páginas
Investigacion 1.4-1.7
Aún no hay calificaciones
Investigacion 1.4-1.7
10 páginas
Grupo 6 - 76159334
Aún no hay calificaciones
Grupo 6 - 76159334
11 páginas
Las 5 Etapas Del Ciclo de Vida de Los Datos
Aún no hay calificaciones
Las 5 Etapas Del Ciclo de Vida de Los Datos
8 páginas
Módulo 1. El Camino A La Implementación Del Big Data Analytics
Aún no hay calificaciones
Módulo 1. El Camino A La Implementación Del Big Data Analytics
15 páginas
AA1. BIG DATA Aa1
Aún no hay calificaciones
AA1. BIG DATA Aa1
24 páginas
Big Data
Aún no hay calificaciones
Big Data
34 páginas
Big Data en Negocios: Metodología y Herramientas
100% (1)
Big Data en Negocios: Metodología y Herramientas
13 páginas
C2 FundamentosAnalisisDatos
Aún no hay calificaciones
C2 FundamentosAnalisisDatos
24 páginas
A1 BIG DATA Grupo 10 - Big Data Como Administrar Informacion A1 BIG DATA Grupo 10 - Big Data Como Administrar Informacion
Aún no hay calificaciones
A1 BIG DATA Grupo 10 - Big Data Como Administrar Informacion A1 BIG DATA Grupo 10 - Big Data Como Administrar Informacion
17 páginas
Ciclo de Vida y Gobernanza en Big Data
Aún no hay calificaciones
Ciclo de Vida y Gobernanza en Big Data
27 páginas
Herramientas de Big Data: MongoDB y Más
Aún no hay calificaciones
Herramientas de Big Data: MongoDB y Más
12 páginas
Big Data y MongoDB en Negocios
Aún no hay calificaciones
Big Data y MongoDB en Negocios
10 páginas
Big Data
Aún no hay calificaciones
Big Data
7 páginas
Adrian Alcantara E2.1
Aún no hay calificaciones
Adrian Alcantara E2.1
10 páginas
Análsis de Datos - Danna
Aún no hay calificaciones
Análsis de Datos - Danna
9 páginas
Big Data - Aa1
Aún no hay calificaciones
Big Data - Aa1
13 páginas
Lectura 1 Big Analytics Handoop
Aún no hay calificaciones
Lectura 1 Big Analytics Handoop
2 páginas
Digitalizacion Tema 4
Aún no hay calificaciones
Digitalizacion Tema 4
4 páginas
Big Data AA1
Aún no hay calificaciones
Big Data AA1
5 páginas
Trabajo EDI
Aún no hay calificaciones
Trabajo EDI
28 páginas
Big Data
Aún no hay calificaciones
Big Data
5 páginas
Guía Completa de Big Data y Virtualización
Aún no hay calificaciones
Guía Completa de Big Data y Virtualización
8 páginas
Introducción a Big Data Analityc
Aún no hay calificaciones
Introducción a Big Data Analityc
25 páginas
JPSA - Agile Big Data - El Requerimiento Analítico
Aún no hay calificaciones
JPSA - Agile Big Data - El Requerimiento Analítico
5 páginas
Soluciones de Big Data: Análisis y Propuestas
Aún no hay calificaciones
Soluciones de Big Data: Análisis y Propuestas
14 páginas
Fases de Un Proyecto de Big Data
Aún no hay calificaciones
Fases de Un Proyecto de Big Data
26 páginas
Grupo 9 Big Data
Aún no hay calificaciones
Grupo 9 Big Data
12 páginas
Documento 19
Aún no hay calificaciones
Documento 19
6 páginas
Software, Aplicaciones y Herramientas para Análisis de Datos
Aún no hay calificaciones
Software, Aplicaciones y Herramientas para Análisis de Datos
21 páginas
BigData-Tarea Investigativa
Aún no hay calificaciones
BigData-Tarea Investigativa
5 páginas
Big Data - Grupo 1
Aún no hay calificaciones
Big Data - Grupo 1
13 páginas
Metodología de Innovación Basada en Datos
Aún no hay calificaciones
Metodología de Innovación Basada en Datos
38 páginas
Trabajo Semana 16 PDF
Aún no hay calificaciones
Trabajo Semana 16 PDF
11 páginas
Taller de Analisis de La Informacion
Aún no hay calificaciones
Taller de Analisis de La Informacion
15 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Teoria6 7
Aún no hay calificaciones
Teoria6 7
2 páginas
Big Data
Aún no hay calificaciones
Big Data
7 páginas
Big Data Revision de Literatura
Aún no hay calificaciones
Big Data Revision de Literatura
6 páginas
Arquitectura Big Data
Aún no hay calificaciones
Arquitectura Big Data
7 páginas
Fases del Ciclo de Vida del Big Data
Aún no hay calificaciones
Fases del Ciclo de Vida del Big Data
17 páginas
El Big Data
Aún no hay calificaciones
El Big Data
9 páginas