0% encontró este documento útil (0 votos)

67 vistas20 páginas

Introducción a Hadoop y su Ecosistema

Hadoop es un framework que permite el almacenamiento y procesamiento distribuido de grandes conjuntos de datos en clústers. Está compuesto por HDFS para almacenamiento, YARN para gestión de recursos, y MapReduce para procesamiento paralelo de datos. Hive permite realizar consultas SQL sobre los datos almacenados en HDFS.

Cargado por

Luis ARGUEDAS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

67 vistas20 páginas

Introducción a Hadoop y su Ecosistema

Cargado por

Luis ARGUEDAS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

HADOOP

•Es un framework implementado en Java que permite el

almacenamiento y procesamiento distribuido de grandes
conjuntos de datos estructurados, semi-estructurados y no
estructurados. Está diseñado para trabajar en clústers con
miles de máquinas y tiene una alta tolerancia a fallas.
HADOOP
HADOOP
¿QUÉ ES TRABAJAR DE MANERA
DISTRIBUIDA?

Significa trabajar sobre un clúster. Un clúster es una agrupación de servidores (computadoras)

conectadas sobre una red generalmente LAN.

Switch

Rack
Servidores Clúster
(o nodos del clúster)
COMPONENTES DE HADOOP

1. Almacenar archivos de manera

distribuida [HDFS]
Map
Reduce v2 SPARK

2. Procesar archivos de manera distribuida

Motor de Motor de
procesamiento
Map procesamiento
Reduce v1

HDFS YARN
[YARN + MAPREDUCE] Motor de
procesamiento
Almacena los datos en el clúster Gestiona los recursos del clúster
COMPONENTES

• Yarn es un componente que divide las funcionalidades de la gestión

de recursos y programación de trabajo en tareas (demonios) por
separado.
• ResourceManager
• Scheduler
• ApplicationsManager
• ApplicationMaster

YARN Architecture
https://blog.cloudera.com/apache-hadoop-yarn-concepts-and-applications/
COMPONENTES

• MapReduce es un paradigma de procesamiento de datos al dividirlo

en 2 fases:
• Map()
• Reduce()

MapReduce Architecture
https://www.educba.com/how-mapreduce-work/
UN CLÚSTER
HADOOP

Por lo general un clúster Hadoop está conformado por al menos un nodo llamado “master” y
tres o más nodos llamados “esclavos”. El nodo “master” es el que recibe peticiones de
almacenamiento o procesamiento desde algún cliente y delega el trabajo a los nodos “slave”.

Cliente Nodo master Nodos slave

El cliente envía quiere

procesar una tarea y la El “master” recibe la
envía al master tarea, selecciona los
“slaves” desocupados y
les ordena ejecutar la
tarea
Los “slaves” ejecutan las tareas, al
finalizar le informan al “master”
HDFS: ALMACENAMIENTO

En Hadoop el módulo que se encarga del almacenamiento y manipulación de archivos es

conocido como HDFS (Hadoop Distribuited File System). Es módulo se encarga de recibir desde
un cliente peticiones de lectura y escritura de archivos y almacenar los archivos en los nodos
“slave”.

Cliente Nodo master Nodos slave

El cliente envía el archivo

que quiere guardar
El “master” busca tres nodos
con espacio disponible en el
disco duro, y guarda el archivo
en cada uno de ellos. El master
almacena metadata Los “slaves” almacenan las
copias de los archivos
YARN + MAPREDUCE: PROCESAMIENTO

En Hadoop los módulos que se encargan del procesamiento de archivos son YARN (Yet Another
Resource Negotiator) y MapReduce. El módulo de YARN verifica los nodos “slave” que están
libres y los selecciona para el procesamiento. El módulo MapReduce ejecuta el procesamiento.

Cliente Nodo master Nodos slave

El cliente envía el
programa que quiere
El “master” por medio de
ejecutar
YARN busca qué nodos
no están ejecutando
nada y separa recursos
(memoria RAM y CPUs).
Los “slave” ejecutan el programa en
paralelo por medio de MapReduce
VENTAJAS DE HADOOP

1. Abstrae al desarrollador de la distribución de la carga de trabajo, es decir, el desarrollador

sólo se preocupa en construir su programa y decirle al clúster que lo ejecute con cierta
cantidad de RAM y CPUs, el clúster se encargará de elegir a los servidores que en ese
momento estén disponibles
2. Funciona sobre hardware commodity, es decir no necesita de un servidor especial tipo
IBM
que puede llegar a costar mucho dinero.
3. Permite la escalabilidad lineal, es decir si un proceso se ejecuta en 10 minutos con 5GB
de
RAM y 3 CPUs, entonces con 10GB de RAM y 6 CPUS deberá ejecutarse en 5 minutos.
4. Permite aumentar la potencia del clúster fácilmente, agregando más nodos al clúster.
ECOSISTEMA DE
HADOOP

Hadoop Ecosystem Diagram

https://www.geeksforgeeks.org/hadoop-ecosystem/
ECOSISTEMA BÁSICO DE HADOOP
HIVE

Hive es una base de datos de almacenamiento de

datos distribuidos de código abierto que opera en el
sistema de archivos distribuidos de Hadoop. Hive se
creó para consultar y analizar big data. Los datos se
almacenan en forma de tablas (al igual que
RDBMS). Las operaciones de datos se pueden realizar
utilizando una interfaz SQL llamada HiveQL. Hive
incorpora la capacidad de SQL además de Hadoop, lo
que la convierte en una base de datos escalable
horizontalmente y una excelente opción para entornos
DWH.
FUNCIONES Y CAPACIDADES DE
HIVE
Hive viene con características y capacidades de nivel
empresarial que pueden ayudar a las organizaciones a
crear soluciones de almacenamiento de datos eficientes y
de alto nivel.
Algunas de estas características incluyen:
•Hive usa Hadoop como su motor de almacenamiento y
solo se ejecuta en HDFS.
•Está especialmente diseñado para operaciones de
almacenamiento de datos y no es una opción para OLTP u
OLAP.
•HiveQL es un motor SQL que ayuda a crear consultas
SQL complejas para operaciones de almacenamiento de
datos. Hive se puede integrar con otras bases de datos
distribuidas como HBase y con bases de datos NoSQL
como Cassandra
SI PROGRAMARAMOS DIRECTAMENTE CON
MAPREDUCE
Programación avanzada
en Java con todo lo que
ello implique:

• Perfiles senior Java

• Mantenibilidad
compleja
• Compilación
de
programas
• Nullpointerexc
eption…
LO MISMO EN HIVE
Conclusiones
• Hadoop resuelve los problemas de procesado de datos con técnicas de
MapReduce, capaces de fraccionar el procesado de datos en grupos y
distribuirlo en un clúster de máquinas gracias a su tecnología HDFS.

• Los clústeres pueden crecer horizontalmente, con lo cual, disponer de

miles de microprocesadores para realizar tareas de procesado de datos
en paralelo es una fortaleza frente a soluciones tradicionales.

• El ecosistema de Apache Hadoop permite la recopilación de grandes

cantidades de datos y búsqueda de tendencias en tiempo real.

También podría gustarte

Sesion 02 - Introducción A Hadoop
Aún no hay calificaciones
Sesion 02 - Introducción A Hadoop
36 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
39 páginas
Hadoop: Clave en Big Data y Análisis
Aún no hay calificaciones
Hadoop: Clave en Big Data y Análisis
39 páginas
Apache Hadoop
0% (1)
Apache Hadoop
14 páginas
Introducción a Batch Processing
Aún no hay calificaciones
Introducción a Batch Processing
457 páginas
Hadoop
Aún no hay calificaciones
Hadoop
7 páginas
Introducción a Big Data con Hadoop
Aún no hay calificaciones
Introducción a Big Data con Hadoop
36 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
43 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
Plataformas de Nube en Big Data
Aún no hay calificaciones
Plataformas de Nube en Big Data
58 páginas
Batch Processing PDF
Aún no hay calificaciones
Batch Processing PDF
49 páginas
Big Data (II Unidad)
Aún no hay calificaciones
Big Data (II Unidad)
80 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
Fundamentos Prácticos de Hadoop
Aún no hay calificaciones
Fundamentos Prácticos de Hadoop
16 páginas
Procesos - Hilos - Multihilos en La Programación Paralela 2018-7241
Aún no hay calificaciones
Procesos - Hilos - Multihilos en La Programación Paralela 2018-7241
9 páginas
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
Big Data: Procesamiento con Hadoop
Aún no hay calificaciones
Big Data: Procesamiento con Hadoop
66 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
13 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
24 páginas
Introducción a Hadoop y Map-Reduce
Aún no hay calificaciones
Introducción a Hadoop y Map-Reduce
30 páginas
Introuduccion Hadoop
Aún no hay calificaciones
Introuduccion Hadoop
21 páginas
Hadoop
Aún no hay calificaciones
Hadoop
36 páginas
Componentes Clave de Hadoop y Spark
Aún no hay calificaciones
Componentes Clave de Hadoop y Spark
21 páginas
Introducción a Hadoop y su Ecosistema
Aún no hay calificaciones
Introducción a Hadoop y su Ecosistema
6 páginas
(14-1) Topicos en Base de Datos - Clase
Aún no hay calificaciones
(14-1) Topicos en Base de Datos - Clase
24 páginas
Fundamentos de Apache Hadoop y MapReduce
Aún no hay calificaciones
Fundamentos de Apache Hadoop y MapReduce
27 páginas
Ecosistema Hadoop La
Aún no hay calificaciones
Ecosistema Hadoop La
8 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
8 páginas
Introducción a Hadoop y su Ecosistema
Aún no hay calificaciones
Introducción a Hadoop y su Ecosistema
18 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Big Data: Tecnologías y Procesamiento
Aún no hay calificaciones
Big Data: Tecnologías y Procesamiento
10 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Introducción a Hadoop
Aún no hay calificaciones
Introducción a Hadoop
4 páginas
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
Aún no hay calificaciones
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
37 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
Guía de Instalación y Uso de Hadoop
Aún no hay calificaciones
Guía de Instalación y Uso de Hadoop
18 páginas
Tutorial Hadoop
Aún no hay calificaciones
Tutorial Hadoop
40 páginas
03 Ecosistema Hadoop
Aún no hay calificaciones
03 Ecosistema Hadoop
35 páginas
Arquitectura Big Data
Aún no hay calificaciones
Arquitectura Big Data
11 páginas
Curso Introductorio a Hadoop y Big Data
Aún no hay calificaciones
Curso Introductorio a Hadoop y Big Data
44 páginas
Procesamiento Distribuido con Hadoop
Aún no hay calificaciones
Procesamiento Distribuido con Hadoop
27 páginas
Hadoop
Aún no hay calificaciones
Hadoop
105 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
Introducción a HDFS y MapReduce en Hadoop
Aún no hay calificaciones
Introducción a HDFS y MapReduce en Hadoop
38 páginas
Qué es HBase y su arquitectura
Aún no hay calificaciones
Qué es HBase y su arquitectura
2 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
5 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
3 páginas
Ecosistema Hadoop: HDFS y MapReduce
Aún no hay calificaciones
Ecosistema Hadoop: HDFS y MapReduce
8 páginas
Big Data WorkShop
Aún no hay calificaciones
Big Data WorkShop
72 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
27 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Desafíos y Soluciones en Big Data
Aún no hay calificaciones
Desafíos y Soluciones en Big Data
81 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
3 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
19 páginas
Sesion 02 - Introduccion A BigData Parte II
Aún no hay calificaciones
Sesion 02 - Introduccion A BigData Parte II
25 páginas
Introducción a Apache Hadoop y su Ecosistema
Aún no hay calificaciones
Introducción a Apache Hadoop y su Ecosistema
26 páginas
Ensayo sobre Hadoop y Big Data
Aún no hay calificaciones
Ensayo sobre Hadoop y Big Data
6 páginas