0% encontró este documento útil (0 votos)
9 vistas39 páginas

Presentación Meetup Python

Cargado por

Jose
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
9 vistas39 páginas

Presentación Meetup Python

Cargado por

Jose
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Arquitecturas Big Data

Mario Pérez Esteso


@_Mario_Perez
mario@[Link]
Índice
1. Introducción
2. Tecnologías de procesado
3. Arquitectura
4. Casos de estudio
5. Conclusiones
[Link]
Apache Hadoop

Hadoop está formado por los siguientes módulos:

- Hadoop Common.
- Hadoop Distributed Filesystem (HDFS).
- Hadoop YARN (Yet Another Resource Negociator).
- MapReduce.
Apache Hadoop MapReduce
Apache Hadoop MapReduce
Apache Spark

Es considerado el primer software de código


abierto que hace la programación distribuida
realmente accesible a los científicos de datos.

Spark mantiene la escalabilidad lineal y la


tolerancia a fallos de MapReduce, pero amplía sus
bondades gracias a varias funcionalidades: DAG y
RDD.
Apache Spark - DAG (Directed Acyclic Graph)
Apache Spark - RDD (Resilient Distributed Dataset)

Un objeto RDD permite a los programadores


realizar operaciones sobre grandes cantidades de
datos en clusters de una manera rápida y
tolerante a fallos.

Mantener los datos en memoria puede mejorar


el rendimiento de una aplicación
considerablemente.
Sistemas de streaming
Apache Kafka

Sistema de mensajería distribuido basado en


publicación-suscripción.
Apache Kafka
Apache Storm

Se basa en una arquitectura maestro-esclavo y


su objetivo es procesar datos en tiempo real.

Se compone de dos partes principales:


- Spout
- Bold
Apache Storm
Spark Streaming
Spark Streaming
Arquitectura
Detección de anomalías en redes
Caso de estudio - Detección de anomalías
Conjunto de datos:
4.9 millones de
registros.
Algoritmo:
KMeans Clustering.
Predicción de fallos online
Caso de estudio - Predicción de fallos online
Conjunto de datos:
10661 líneas
88 columnas
Algoritmo:
Random Forests.
Análisis de sentimientos en Twitter
Caso de estudio - Análisis de sentimientos
Conjunto de datos:
Mensajes en Twitter.
Algoritmo:
Recuento de palabras positivas y negativas.
Análisis de sentimientos en Twitter
Puntuación de mensajes
Conclusiones
Apache Spark es entre 10 y 100 veces más
rápido que Hadoop MapReduce.

La programación es muy similar en Scala, Java y


Python.

La arquitectura propuesta es válida para


cualquier caso de estudio.
@_Mario_Perez
mario@[Link]

También podría gustarte