Presentación Meetup Python

Cargado por

Jose

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

9 vistas39 páginas

Presentación Meetup Python

Cargado por

Jose

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Arquitecturas Big Data

Mario Pérez Esteso

@_Mario_Perez
mario@[Link]
Índice
1. Introducción
2. Tecnologías de procesado
3. Arquitectura
4. Casos de estudio
5. Conclusiones
[Link]
Apache Hadoop

Hadoop está formado por los siguientes módulos:

- Hadoop Common.
- Hadoop Distributed Filesystem (HDFS).
- Hadoop YARN (Yet Another Resource Negociator).
- MapReduce.
Apache Hadoop MapReduce
Apache Hadoop MapReduce
Apache Spark

Es considerado el primer software de código

abierto que hace la programación distribuida
realmente accesible a los científicos de datos.

Spark mantiene la escalabilidad lineal y la

tolerancia a fallos de MapReduce, pero amplía sus
bondades gracias a varias funcionalidades: DAG y
RDD.
Apache Spark - DAG (Directed Acyclic Graph)
Apache Spark - RDD (Resilient Distributed Dataset)

Un objeto RDD permite a los programadores

realizar operaciones sobre grandes cantidades de
datos en clusters de una manera rápida y
tolerante a fallos.

Mantener los datos en memoria puede mejorar

el rendimiento de una aplicación
considerablemente.
Sistemas de streaming
Apache Kafka

Sistema de mensajería distribuido basado en

publicación-suscripción.
Apache Kafka
Apache Storm

Se basa en una arquitectura maestro-esclavo y

su objetivo es procesar datos en tiempo real.

Se compone de dos partes principales:

- Spout
- Bold
Apache Storm
Spark Streaming
Spark Streaming
Arquitectura
Detección de anomalías en redes
Caso de estudio - Detección de anomalías
Conjunto de datos:
4.9 millones de
registros.
Algoritmo:
KMeans Clustering.
Predicción de fallos online
Caso de estudio - Predicción de fallos online
Conjunto de datos:
10661 líneas
88 columnas
Algoritmo:
Random Forests.
Análisis de sentimientos en Twitter
Caso de estudio - Análisis de sentimientos
Conjunto de datos:
Mensajes en Twitter.
Algoritmo:
Recuento de palabras positivas y negativas.
Análisis de sentimientos en Twitter
Puntuación de mensajes
Conclusiones
Apache Spark es entre 10 y 100 veces más
rápido que Hadoop MapReduce.

La programación es muy similar en Scala, Java y

Python.

La arquitectura propuesta es válida para

cualquier caso de estudio.
@_Mario_Perez
mario@[Link]

También podría gustarte

Herramientas Clave de Ciencia de Datos
Aún no hay calificaciones
Herramientas Clave de Ciencia de Datos
2 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
TFM Mario Perez Esteso 2015
Aún no hay calificaciones
TFM Mario Perez Esteso 2015
96 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
(14-1) Topicos en Base de Datos - Clase
Aún no hay calificaciones
(14-1) Topicos en Base de Datos - Clase
24 páginas
Apache Spark: Guía para Desarrolladores
Aún no hay calificaciones
Apache Spark: Guía para Desarrolladores
25 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Taller1 Middlewares
Aún no hay calificaciones
Taller1 Middlewares
4 páginas
Herramientas Inteligencia Artificial
Aún no hay calificaciones
Herramientas Inteligencia Artificial
3 páginas
Big Data Tech
Aún no hay calificaciones
Big Data Tech
8 páginas
Introducción a Big Data con Hadoop
Aún no hay calificaciones
Introducción a Big Data con Hadoop
36 páginas
Herramientas Clave en el Ciclo de Big Data
Aún no hay calificaciones
Herramientas Clave en el Ciclo de Big Data
15 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Investigación
Aún no hay calificaciones
Investigación
31 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Examen BIG
Aún no hay calificaciones
Examen BIG
6 páginas
Fundamentos de Big Data y Hadoop
Aún no hay calificaciones
Fundamentos de Big Data y Hadoop
12 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Herramientas Clave para Big Data
Aún no hay calificaciones
Herramientas Clave para Big Data
3 páginas
Fundamentos de Apache Spark en Ciencia de Datos
Aún no hay calificaciones
Fundamentos de Apache Spark en Ciencia de Datos
23 páginas
Comparativa entre Hadoop y Spark
Aún no hay calificaciones
Comparativa entre Hadoop y Spark
4 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Trabajo 1: Big Data
Aún no hay calificaciones
Trabajo 1: Big Data
3 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
Aún no hay calificaciones
Comparativa de Tecnologías Big Data: Storm, Spark y Samza
3 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Big Data
Aún no hay calificaciones
Big Data
27 páginas
Spark Hadoop
Aún no hay calificaciones
Spark Hadoop
7 páginas
Introducción a Apache Spark y RDDs
Aún no hay calificaciones
Introducción a Apache Spark y RDDs
25 páginas
Estudio de Spark, Pig, Kafka y Hive para Hadoop
Aún no hay calificaciones
Estudio de Spark, Pig, Kafka y Hive para Hadoop
21 páginas
Arquitectura Spark en Big Data
Aún no hay calificaciones
Arquitectura Spark en Big Data
39 páginas
Introduccion A Hadoop UV ES
Aún no hay calificaciones
Introduccion A Hadoop UV ES
61 páginas
Ecosistema Hadoop y sus herramientas
Aún no hay calificaciones
Ecosistema Hadoop y sus herramientas
3 páginas
Tema 2
Aún no hay calificaciones
Tema 2
60 páginas
Actividad 6. Investigación Spark
Aún no hay calificaciones
Actividad 6. Investigación Spark
9 páginas
Zaharia en Es
Aún no hay calificaciones
Zaharia en Es
7 páginas
Introducción a Apache Hadoop y MapReduce
Aún no hay calificaciones
Introducción a Apache Hadoop y MapReduce
6 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Introducción Al Big Data
Aún no hay calificaciones
Introducción Al Big Data
92 páginas
Fundamentos de Apache Hadoop y MapReduce
Aún no hay calificaciones
Fundamentos de Apache Hadoop y MapReduce
27 páginas
Wa0020.
Aún no hay calificaciones
Wa0020.
9 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
Introducción a Hadoop
Aún no hay calificaciones
Introducción a Hadoop
4 páginas
Apache Spark: Guía Completa para Ingeniería Informática
Aún no hay calificaciones
Apache Spark: Guía Completa para Ingeniería Informática
9 páginas
Actividad de Transferencia - Procesando Grandes Volúmenes de Datos
Aún no hay calificaciones
Actividad de Transferencia - Procesando Grandes Volúmenes de Datos
5 páginas
Herramientas y Éxitos en Big Data
Aún no hay calificaciones
Herramientas y Éxitos en Big Data
22 páginas
Guía Completa de Apache Spark para Desarrollo Web
Aún no hay calificaciones
Guía Completa de Apache Spark para Desarrollo Web
10 páginas
Actividad 3
Aún no hay calificaciones
Actividad 3
2 páginas
Actividad 4
Aún no hay calificaciones
Actividad 4
5 páginas
AZF 502 - Databricks
Aún no hay calificaciones
AZF 502 - Databricks
10 páginas
Teoría Arquitecturas de BIG DATA
Aún no hay calificaciones
Teoría Arquitecturas de BIG DATA
3 páginas
Herramientas Big Data: Python, Hadoop y Spark
Aún no hay calificaciones
Herramientas Big Data: Python, Hadoop y Spark
16 páginas
Guía Completa de Apache Spark y Databricks
Aún no hay calificaciones
Guía Completa de Apache Spark y Databricks
27 páginas
Resumen TASD - 2do Parcial
Aún no hay calificaciones
Resumen TASD - 2do Parcial
17 páginas