0% encontró este documento útil (0 votos)

12 vistas15 páginas

PRII01 Bid Data Stack

Cargado por

qymerial

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

12 vistas15 páginas

PRII01 Bid Data Stack

Cargado por

qymerial

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Big Data Stack

Proyectos II: Tendencias de la Ingeniería del Software

Pablo Ramos Criado

Proyectos II / Big Data Stack 2

Big Data Stack | Hadoop Stack

Almacena la Cluster
información
con HDFS

Procesa la
información
con MapReduce
Proyectos II / Big Data Stack 3

Big Data Stack | Hadoop Stack

§ Hadoop es una plataforma de código libre para el

almacenamiento y procesado distribuido de grandes volúmenes
información en clústeres de cientos de nodos.
§ HDFS (Hadoop Distributed File System) para almacenamiento
de información. Basado en Google File System.
§ MapReduce para el procesado. Basado en MapReduce de
Google

§ Además de estas dos herramientas, implementa otras

utilidades que:
§ Trabajan sobre MapReduce
§ Trabajan sobre HDFS
Proyectos II / Big Data Stack 4

Big Data Stack | Hadoop Stack

Proyectos II / Big Data Stack 5

HDFS: Hadoop Distributed File System

§ Para mejor manejo de los datos y mejorar la integridad de

los datos, dividimos el archivo en sub-bloques.

blk_1 ¿Cómo
distribuimos
blk_2 los datos en el
cluster?
blk_3
Proyectos II / Big Data Stack 6

HDFS: Hadoop Distributed File System

§ 3 réplicas de cada bloque.

blk_1 blk_3
blk_3 blk_2 blk_2 blk_1
blk_2 blk_3
blk_1

blk_2
NameNode blk_1
blk_3 (activo)
NameNode
(en espera)
Proyectos II / Big Data Stack 7

HDFS: Hadoop Distributed File System

§ HDFS tiene una arquitectura maestro/esclavo.

§ Un cluster HDFS está compuesto por:
§ Un NameNode que administra el acceso al sistema de archivos.
Por lo general existe un NameNode activo y otro en modo de
espera por si el primero falla.
§ Un conjunto DataNodes (tantos como nodos tiene el cluster) que
administran el almacenamiento de datos.
§ El sistema de archivos HDFS permite almacenar archivos de
todo tipo. HDFS divide los archivos en sub-bloques de un
tamaño predefinido (64MB) y los distribuye en los DataNodes
según el factor de replicación.
Proyectos II / Big Data Stack 8

Map Reduce

§ MapReduce es una técnica de procesado en paralelo de

grandes cantidades de información en clústeres.
§ Está basado en las funciones de programación funcional
map y reduce.
§ No obstante, el verdadero potencial de esta técnica surge del
uso en paralelo de estas funciones. La ejecución en un solo
hilo de esta técnica no ofrecería ninguna ventaja sustancial.
§ Esta técnica solo es eficiente para procesar grandes
cantidades de información. Para conjuntos de datos
pequeños es más eficiente la ejecución secuencial.
Proyectos II / Big Data Stack 9

Hadoop: Tres pasos

§ Map: Realiza tareas de filtrado y ordenamiento de datos.

§ Cada nodo que almacena parte de la información a procesar,
ejecuta una tarea map sobre sus datos y guarda el resultado
temporalmente.
§ Shuffle & Sort: Reorganiza los resultados.
§ Los resultados son reorganizados para que los resultados
pertenecientes a una misma clave se encuentren localizados
físicamente en un mismo nodo.
§ Reduce: Realiza tareas de agregación de datos.
§ Los resultados agrupados de una misma clave son
procesados por una tarea reduce que obtiene el resultado
final para esa clave.
Proyectos II / Big Data Stack 10

Map Reduce: Proces

Televisor Electrónica 450€ blk_1

Batidora Cocina 60€ put blk_2
… … … blk_1
Balón Deportes 15€

blk_2
Proyectos II / Big Data Stack 11

Map Reduce: Proces

Televisor Electrónica 450€ blk_1

Batidora Cocina 60€ put blk_2
… … … blk_1 map
Balón Deportes 15€ ce
d u map
re
ap
m
mapper.py result
reducer.py
blk_2
Proyectos II / Big Data Stack 12

Map Reduce: Proces

Televisor Electrónica 450€ blk_1

Batidora Cocina 60€ put blk_2
… … … blk_1
Balón Deportes 15€ ce
d u
re
ap
m
shuffle
mapper.py & sort result
reducer.py
blk_2
Proyectos II / Big Data Stack 13

Map Reduce: Proces

Televisor Electrónica 450€ blk_1

Batidora Cocina 60€ put blk_2
… … … blk_1
Balón Deportes 15€ ce
d u
re
ap
m
mapper.py reduce
reducer.py
blk_2
Proyectos II / Big Data Stack 14

Map Reduce: Proces

Televisor Electrónica 450€ blk_1

Batidora Cocina 60€ put blk_2
… … … blk_1
Balón Deportes 15€ ce
d u
re
ap
m
get

mapper.py result
reducer.py
blk_2
Electrónica 33463€
Cocina 63450€
Deportes 11515€
Proyectos II / Big Data Stack 15

Big Data Stack | Hadoop Stack

También podría gustarte

Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Big Data Tecnicas Herramientas y Aplicac-4
Aún no hay calificaciones
Big Data Tecnicas Herramientas y Aplicac-4
9 páginas
BIGDATA
Aún no hay calificaciones
BIGDATA
26 páginas
Introducción al Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción al Big Data y sus Tecnologías
14 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Separata 02
Aún no hay calificaciones
Separata 02
16 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
Tema 2
Aún no hay calificaciones
Tema 2
30 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
MapReduce en Python para Big Data
Aún no hay calificaciones
MapReduce en Python para Big Data
143 páginas
Separata 02
Aún no hay calificaciones
Separata 02
30 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
39 páginas
Hadoop
Aún no hay calificaciones
Hadoop
36 páginas
Batch Processing PDF
Aún no hay calificaciones
Batch Processing PDF
49 páginas
Plataformas de Nube en Big Data
Aún no hay calificaciones
Plataformas de Nube en Big Data
58 páginas
Introducción a Apache Hadoop y MapReduce
Aún no hay calificaciones
Introducción a Apache Hadoop y MapReduce
6 páginas
1 - Hadoop v2
Aún no hay calificaciones
1 - Hadoop v2
41 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
19 páginas
Introducción a Batch Processing
Aún no hay calificaciones
Introducción a Batch Processing
457 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
MapReduce y Big Data: Guía Básica
Aún no hay calificaciones
MapReduce y Big Data: Guía Básica
60 páginas
Introducción a Apache Hadoop
Aún no hay calificaciones
Introducción a Apache Hadoop
1 página
Sesion 02 - Introducción A Hadoop
Aún no hay calificaciones
Sesion 02 - Introducción A Hadoop
36 páginas
Hadoop
Aún no hay calificaciones
Hadoop
9 páginas
Big Data
Aún no hay calificaciones
Big Data
27 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
13 páginas
Big Data WorkShop
Aún no hay calificaciones
Big Data WorkShop
81 páginas
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
5 páginas
Tema 2
Aún no hay calificaciones
Tema 2
60 páginas
4ta PC Topicos
Aún no hay calificaciones
4ta PC Topicos
23 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
14 páginas
UD4 - S03 - Big Data
Aún no hay calificaciones
UD4 - S03 - Big Data
23 páginas
3 - MapReduce
Aún no hay calificaciones
3 - MapReduce
28 páginas
Big Data
Aún no hay calificaciones
Big Data
11 páginas
Tesis Sobre La Big Data
Aún no hay calificaciones
Tesis Sobre La Big Data
97 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
C01 - BigData - Historia, Conceptos y Tecnologias - v1.0
Aún no hay calificaciones
C01 - BigData - Historia, Conceptos y Tecnologias - v1.0
50 páginas
Fundamentos de Big Data y Hadoop
Aún no hay calificaciones
Fundamentos de Big Data y Hadoop
12 páginas
Hadoop
Aún no hay calificaciones
Hadoop
7 páginas
Big Data Fundamentals - Ma Afq6e2s
Aún no hay calificaciones
Big Data Fundamentals - Ma Afq6e2s
6 páginas
Explorando La Ingenierías de Datos y Su Infraestructura
Aún no hay calificaciones
Explorando La Ingenierías de Datos y Su Infraestructura
4 páginas
FRPB AD Unidad2 ProyectoCodigo2
Aún no hay calificaciones
FRPB AD Unidad2 ProyectoCodigo2
4 páginas
Análisis Avanzado de Big Data
Aún no hay calificaciones
Análisis Avanzado de Big Data
54 páginas
Introduccion A Hadoop UV ES
Aún no hay calificaciones
Introduccion A Hadoop UV ES
61 páginas
Fundamentos de Apache Hadoop y MapReduce
Aún no hay calificaciones
Fundamentos de Apache Hadoop y MapReduce
27 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
1 - Hadoop v2
Aún no hay calificaciones
1 - Hadoop v2
41 páginas
Bda T1
Aún no hay calificaciones
Bda T1
17 páginas
Hadoop: Clave en Big Data y Análisis
Aún no hay calificaciones
Hadoop: Clave en Big Data y Análisis
39 páginas
Clase 01 - Versión PDF
Aún no hay calificaciones
Clase 01 - Versión PDF
23 páginas
Big Data
Aún no hay calificaciones
Big Data
2 páginas
Introducción a Hadoop y Big Data
100% (2)
Introducción a Hadoop y Big Data
58 páginas
Clase3 pdf2
Aún no hay calificaciones
Clase3 pdf2
11 páginas
Apache Hadoop
0% (1)
Apache Hadoop
14 páginas
Capitulo 7 Arquitectura Big Data
100% (1)
Capitulo 7 Arquitectura Big Data
62 páginas
Código de Barras: Estructura y Uso
Aún no hay calificaciones
Código de Barras: Estructura y Uso
3 páginas
Motor Perkins 103-09
Aún no hay calificaciones
Motor Perkins 103-09
80 páginas
La Vuelta Al Mundo en 80 Dias Ficha LeoTodo
Aún no hay calificaciones
La Vuelta Al Mundo en 80 Dias Ficha LeoTodo
5 páginas
C92V-Semana 16-Indicaciones-Avance de Proyecto Final
Aún no hay calificaciones
C92V-Semana 16-Indicaciones-Avance de Proyecto Final
4 páginas
Adhesivo Multibond X-016: Seguridad y Uso
Aún no hay calificaciones
Adhesivo Multibond X-016: Seguridad y Uso
10 páginas
59 Ippvrdc Supervisor Mayor de Visualizacion
Aún no hay calificaciones
59 Ippvrdc Supervisor Mayor de Visualizacion
19 páginas
Ejercicio Assessment Supervisor Servicio
Aún no hay calificaciones
Ejercicio Assessment Supervisor Servicio
3 páginas
Lucas Matías San Martin Cv4
Aún no hay calificaciones
Lucas Matías San Martin Cv4
2 páginas
Adry Edi
Aún no hay calificaciones
Adry Edi
20 páginas
Curp
Aún no hay calificaciones
Curp
1 página
Práctica Calificada 1: Carta Electrónica
Aún no hay calificaciones
Práctica Calificada 1: Carta Electrónica
5 páginas
Informe Bombas en Serie
Aún no hay calificaciones
Informe Bombas en Serie
4 páginas
Convocatoria para Licitación de Equipos de Cómputo
Aún no hay calificaciones
Convocatoria para Licitación de Equipos de Cómputo
8 páginas
Registro Unificado (Guatemala)
0% (1)
Registro Unificado (Guatemala)
24 páginas
Parts Catalogue: GS150R L3
Aún no hay calificaciones
Parts Catalogue: GS150R L3
85 páginas
Cuantos Dias Han Pasado Desde El 13 de Abril - Buscar Con Google
Aún no hay calificaciones
Cuantos Dias Han Pasado Desde El 13 de Abril - Buscar Con Google
1 página
SSOMA Examen - Módulo 10
Aún no hay calificaciones
SSOMA Examen - Módulo 10
4 páginas
Presentacion PETROCEDEÑO2
Aún no hay calificaciones
Presentacion PETROCEDEÑO2
27 páginas
Herramientas Tecnológicas en Avicultura
Aún no hay calificaciones
Herramientas Tecnológicas en Avicultura
5 páginas
Practica 8-LDP Practica
Aún no hay calificaciones
Practica 8-LDP Practica
19 páginas
Control de Ingresos y Gastos 2020
Aún no hay calificaciones
Control de Ingresos y Gastos 2020
4 páginas
CASO PRACTICO UNIDAD 3 - Business Plan
Aún no hay calificaciones
CASO PRACTICO UNIDAD 3 - Business Plan
7 páginas
TARIZAGE
Aún no hay calificaciones
TARIZAGE
75 páginas
Límites Laterales
Aún no hay calificaciones
Límites Laterales
20 páginas
Final - Escenario 8 - PRACTICO - SISTEMAS OPERACIONALES Intento 1
Aún no hay calificaciones
Final - Escenario 8 - PRACTICO - SISTEMAS OPERACIONALES Intento 1
18 páginas
4.2 - Diagrama-HerramientasDeCalidad
Aún no hay calificaciones
4.2 - Diagrama-HerramientasDeCalidad
2 páginas
Anexo1 Matriz Riesgo
Aún no hay calificaciones
Anexo1 Matriz Riesgo
3 páginas
Informe Diario de Producción 20.11.2020
Aún no hay calificaciones
Informe Diario de Producción 20.11.2020
7 páginas
Vasquez Rojas, Gustavo - C.I. 7927459 Cbba.-Boleta Eh1
Aún no hay calificaciones
Vasquez Rojas, Gustavo - C.I. 7927459 Cbba.-Boleta Eh1
1 página
Convolución Continua: Ejercicio Analítico
Aún no hay calificaciones
Convolución Continua: Ejercicio Analítico
2 páginas