Arquitecturas Big Data
Mario Pérez Esteso
@_Mario_Perez
mario@[Link]
Índice
1. Introducción
2. Tecnologías de procesado
3. Arquitectura
4. Casos de estudio
5. Conclusiones
[Link]
Apache Hadoop
Hadoop está formado por los siguientes módulos:
- Hadoop Common.
- Hadoop Distributed Filesystem (HDFS).
- Hadoop YARN (Yet Another Resource Negociator).
- MapReduce.
Apache Hadoop MapReduce
Apache Hadoop MapReduce
Apache Spark
Es considerado el primer software de código
abierto que hace la programación distribuida
realmente accesible a los científicos de datos.
Spark mantiene la escalabilidad lineal y la
tolerancia a fallos de MapReduce, pero amplía sus
bondades gracias a varias funcionalidades: DAG y
RDD.
Apache Spark - DAG (Directed Acyclic Graph)
Apache Spark - RDD (Resilient Distributed Dataset)
Un objeto RDD permite a los programadores
realizar operaciones sobre grandes cantidades de
datos en clusters de una manera rápida y
tolerante a fallos.
Mantener los datos en memoria puede mejorar
el rendimiento de una aplicación
considerablemente.
Sistemas de streaming
Apache Kafka
Sistema de mensajería distribuido basado en
publicación-suscripción.
Apache Kafka
Apache Storm
Se basa en una arquitectura maestro-esclavo y
su objetivo es procesar datos en tiempo real.
Se compone de dos partes principales:
- Spout
- Bold
Apache Storm
Spark Streaming
Spark Streaming
Arquitectura
Detección de anomalías en redes
Caso de estudio - Detección de anomalías
Conjunto de datos:
4.9 millones de
registros.
Algoritmo:
KMeans Clustering.
Predicción de fallos online
Caso de estudio - Predicción de fallos online
Conjunto de datos:
10661 líneas
88 columnas
Algoritmo:
Random Forests.
Análisis de sentimientos en Twitter
Caso de estudio - Análisis de sentimientos
Conjunto de datos:
Mensajes en Twitter.
Algoritmo:
Recuento de palabras positivas y negativas.
Análisis de sentimientos en Twitter
Puntuación de mensajes
Conclusiones
Apache Spark es entre 10 y 100 veces más
rápido que Hadoop MapReduce.
La programación es muy similar en Scala, Java y
Python.
La arquitectura propuesta es válida para
cualquier caso de estudio.
@_Mario_Perez
mario@[Link]