Taller MapReduce

El documento describe un taller sobre MapReduce. Explica que MapReduce es un modelo de programación distribuida que permite procesar grandes cantidades de datos de forma paralela. Describe las funciones Map y Reduce, indicando que Map procesa los datos y Reduce los combina. También resume los pasos para implementar MapReduce usando NetBeans y un artículo como datos de entrada.

Cargado por

jenny catalina sua quimbayo

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

59 vistas8 páginas

Taller MapReduce

Cargado por

jenny catalina sua quimbayo

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

TALLER MAP REDUCE

Informe Taller MapReduce

Diego Manuel Montero Mejía

Jenny Catalina Sua Quimbayo

Universidad Central
Facultad de Ingeniería y Ciencias Básicas
Departamento de Ingeniería de Sistemas
Bogotá, Colombia
2020
MapReduce
Es un modelo de programación distribuida que permite el procesamiento masivo de datos a gran escala
de forma paralela. Fue diseñado y desarrollado originalmente por Google (2004) como una alternativa
escalable y tolerante a fallos para el procesamiento masivo de datos y se popularizó por la
implementación open source Apache Hadoop. Este modelo se fundamenta en las funciones Map( ) y
Reduce( ), utilizadas comúnmente en los lenguajes de programación pero con finalidades diferentes.

La popularidad del modelo viene debido a su uso inicial como un método de cálculo dentro del Álgebra
Lineal. Posterior a ello, debido a la preocupación de la manipulación de grandes cantidades de datos,
llevó a crear algoritmos y frameworks capaces de poder procesar cantidades considerables de datos.
Entre las primeras aplicaciones capaces de programar MapReduce emergió Hadoop como favorito,
diseñado inicialmente por Doug Cutting.

Como se dijo inicialmente, MapReduce divide el procesamiento en dos funciones: Map y Reduce. Cada
una de estas fases utiliza pares <clave - valor> com entradas y salidas.

Función map( )
La función map( ) tiene como característica principal trabajar sobre grandes volúmenes de datos. Estos
datos son divididos en dos o más partes. Cada una de estas partes contiene colecciones de registros o
líneas de texto. Una función map() es ejecutada para cada porción de datos por separado, con la
finalidad de calcular un conjunto de valores intermedios basados en el procesamiento de cada registro.
MapReduce agrupa los valores de acuerdo a la clave intermedia y posteriormente los envía a la función
reduce ().

Función reduce( )
La función reduce( ) se ejecuta para cada elemento de cada lista de valores intermedios que recibe. El
resultado final se obtiene mediante la recopilación e interpretación de los resultados de todos los
procesos que se ejecutaron.
Cuando se inicia la función reduce, la entrada se encuentra dispersa en varios archivos a través de los
nodos de las tareas Map. Los datos obtenidos en la fase Map, se ordenan para que los pares <clave -
valor> sean contiguos, esto hace que la operación Reduce se simplifique debido a que el archivo se lee
secuencialmente. Por lo tanto, n archivos de entrada generarán m mapas de tareas para ser ejecutados,
y cada mapa de tareas generará tantos archivos como tareas reduce estén configuradas en el sistema.

Figura 1: Funcionamiento de MapReduce

Implementación de MapReduce
n NetBeans IDE. Luego se deberán
1. Se debe crear un proyecto con el nombre de MapReduce e
crear dos paquetes a los cuales llamaremos Input y MapReduce.
Dentro del paquete Input s e encuentra un archivo de texto plano, el cual contiene el archivo de
entrada, y es allí mismo donde se ubicaran los archivos generados al ejecutar el proyecto.
Dentro del paquete MapReduce s e encuentra el archivo con todo el código donde se realiza la
lógica de la ejecución del MapReduce, con los métodos necesarios para la ejecución.

2. El archivo de entrada ubicado en el paquete Input contiene un artículo realizado por unos
compañeros de la Universidad Central sobre los riesgos, vulnerabilidades y tipos de ciberataques
para la materia de Opción de Grado II. Se utiliza este artículo como archivo de entrada ya que es
muy extenso y nos permitirá observar el correcto funcionamiento del MapReduce. A continuación
podemos observar parte del archivo:

3. La clase denominada MapReduce ubicada en el paquete MapReduce c ontiene los diferentes

métodos para la ejecución de MapReduce, los cuales serán explicados a continuación.
Map: El método map( ) es el encargo de la lectura del archivo de entrada, el cual llamamos
input.txt y está ubicado en el paquete Input.
splitWords: El método splitWords( ) nos permite crear un archivo al cual se denominó map.txt y
es el que nos permite crear las <clave - valor> a las cuales se les está dando un valor entero
igual a 1.

Reduce: El método reduce( ) lee el archivo map.txt que se creó en el método splitWords( ) y se
ejecuta para cada elemento de cada lista de valores intermedios que recibe y genera las <clave -
valor> c omo salida en el archivo denominado output.txt.
Main: El método main( ) es el encargado de ejecutar todos los métodos anteriores, en ella se
realiza el respectivo llamado a cada método para la ejecución exitosa del MapReduce.

4. Finalmente se realiza la ejecución del main para correr el proyecto. Al realizar la ejecución, como
lo explicamos en los métodos anteriores se realizará la creación de los archivos Map.txt y
Output.txt.

Map.txt: El archivo map.txt tendrá el mapeo de los datos que se han obtenido del archivo de
entrada en el archivo Input.txt, cada división o mapeo de los datos se ve como una la lista de
datos tipo <clave , valor> los cuales tienen todos el valor de 1, definido previamente.
Output.txt: El archivo output.txt recibe los datos enviados desde el archivo map.txt, reducidos
gracias al resultado del mapeo, donde podemos observar la cantidad de veces que la clase o
dato se repite respectivamente.

Bibliografía
● Olmedo Y, (2012). ¿Qué es MapReduce?. SolidQ.
https://blogs.solidq.com/es/business-analytics/que-es-mapreduce/

● Hernández, A. Hernández, A. (2015). Acerca de la aplicación de MapReduce + Hadoop en el

tratamiento de Big Data. Revista Cubana de Ciencias Informáticas, 9(3), 49-62.
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2227-18992015000300004&lng=es&tlng=e
s
Conclusiones
● Se logra evidenciar el funcionamiento de MapReduce en un artículo con una gran cantidad de
datos.
● Se evidenció la descomposición de los datos con su respectiva clave-valor.
● Después de la ejecución del proceso nos indica que es un proceso muy rápido

También podría gustarte

Ensayo Mapreduce
Aún no hay calificaciones
Ensayo Mapreduce
10 páginas
MapReduce en Sistemas Distribuidos
Aún no hay calificaciones
MapReduce en Sistemas Distribuidos
8 páginas
Map Reduce: El Camino Hacia Big Data
Aún no hay calificaciones
Map Reduce: El Camino Hacia Big Data
14 páginas
MapReduce Es Un Modelo de Programación y Un Marco Diseñado para Procesar Grandes Volúmenes de Datos de Manera Distribuida
Aún no hay calificaciones
MapReduce Es Un Modelo de Programación y Un Marco Diseñado para Procesar Grandes Volúmenes de Datos de Manera Distribuida
1 página
FRPB AD Unidad2 ProyectoCodigo2
Aún no hay calificaciones
FRPB AD Unidad2 ProyectoCodigo2
4 páginas
Resumen Tecnico MapReduce Completo
Aún no hay calificaciones
Resumen Tecnico MapReduce Completo
5 páginas
Práctica 3 Spark y MapReduce
Aún no hay calificaciones
Práctica 3 Spark y MapReduce
8 páginas
B3 - T8 - Ejercicios de Map Reduce PDF
Aún no hay calificaciones
B3 - T8 - Ejercicios de Map Reduce PDF
12 páginas
Taller MapReduce para Programadores
Aún no hay calificaciones
Taller MapReduce para Programadores
2 páginas
Guía Completa de Hadoop y MapReduce
Aún no hay calificaciones
Guía Completa de Hadoop y MapReduce
31 páginas
Introducción a Apache Hadoop y MapReduce
Aún no hay calificaciones
Introducción a Apache Hadoop y MapReduce
6 páginas
Guia 8 Map Reduceclienteservidor
Aún no hay calificaciones
Guia 8 Map Reduceclienteservidor
4 páginas
B0.476 Pec2
Aún no hay calificaciones
B0.476 Pec2
11 páginas
Carlos Patricio Bastidas Andi Mapa C
Aún no hay calificaciones
Carlos Patricio Bastidas Andi Mapa C
4 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
19 páginas
B0.476 20191 Pec2 PDF
Aún no hay calificaciones
B0.476 20191 Pec2 PDF
8 páginas
B2.322 20161 Pec2
Aún no hay calificaciones
B2.322 20161 Pec2
11 páginas
Hadoop
Aún no hay calificaciones
Hadoop
19 páginas
Big Data: MapReduce y Apache Spark
0% (1)
Big Data: MapReduce y Apache Spark
8 páginas
MapReduce y Big Data: Guía Básica
Aún no hay calificaciones
MapReduce y Big Data: Guía Básica
60 páginas
Hadoop Vs Spark
Aún no hay calificaciones
Hadoop Vs Spark
21 páginas
Ejemplo Hadoop MapReduce UOC
Aún no hay calificaciones
Ejemplo Hadoop MapReduce UOC
10 páginas
Análisis Big Data en UOC con Hadoop
0% (1)
Análisis Big Data en UOC con Hadoop
10 páginas
4ta PC Topicos
Aún no hay calificaciones
4ta PC Topicos
23 páginas
Introducción a Big Data y Hadoop
Aún no hay calificaciones
Introducción a Big Data y Hadoop
5 páginas
Ideas Clave (1) - 139-178
Aún no hay calificaciones
Ideas Clave (1) - 139-178
40 páginas
ArquitecturaDeDatos-Taller U3
Aún no hay calificaciones
ArquitecturaDeDatos-Taller U3
6 páginas
MapReduce en Python para Big Data
Aún no hay calificaciones
MapReduce en Python para Big Data
143 páginas
Practica MapReduce
Aún no hay calificaciones
Practica MapReduce
8 páginas
Introducción a Map-Reduce y MongoDB
Aún no hay calificaciones
Introducción a Map-Reduce y MongoDB
24 páginas
Hands-On Avanzado MapReduce
Aún no hay calificaciones
Hands-On Avanzado MapReduce
6 páginas
Big Data - Ingenieria - Clase 1
Aún no hay calificaciones
Big Data - Ingenieria - Clase 1
59 páginas
Modulo 4 - Procesamiento y Ciclo de Vida
100% (1)
Modulo 4 - Procesamiento y Ciclo de Vida
65 páginas
Hadoop y MapReduce: Ventajas y Usos
Aún no hay calificaciones
Hadoop y MapReduce: Ventajas y Usos
11 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
39 páginas
Aprendiendo MongoDB-21-31
Aún no hay calificaciones
Aprendiendo MongoDB-21-31
11 páginas
Map-Reduce Avanzado en Hadoop
Aún no hay calificaciones
Map-Reduce Avanzado en Hadoop
100 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Hadoop
Aún no hay calificaciones
Hadoop
36 páginas
Introducción al Big Data y sus Tecnologías
Aún no hay calificaciones
Introducción al Big Data y sus Tecnologías
14 páginas
Desarrollo MapReduce en Java
Aún no hay calificaciones
Desarrollo MapReduce en Java
14 páginas
Antonio Jesús Arias UT2 Act4
Aún no hay calificaciones
Antonio Jesús Arias UT2 Act4
7 páginas
TallerUnidad4 BigData
Aún no hay calificaciones
TallerUnidad4 BigData
11 páginas
Spark: Mejoras sobre MapReduce
Aún no hay calificaciones
Spark: Mejoras sobre MapReduce
6 páginas
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
Aún no hay calificaciones
Módulo 4. Manejo de Datos Con Spark SQL: Introducción
29 páginas
Investigación sobre Hadoop en Zacatepec
Aún no hay calificaciones
Investigación sobre Hadoop en Zacatepec
6 páginas
Índice Invertido con Hadoop en Java
Aún no hay calificaciones
Índice Invertido con Hadoop en Java
4 páginas
Guia IngenieriaProcesadoMasivoDatos
Aún no hay calificaciones
Guia IngenieriaProcesadoMasivoDatos
10 páginas
Sesion 02 - Introducción A Hadoop
Aún no hay calificaciones
Sesion 02 - Introducción A Hadoop
36 páginas
Terminos y Definiciones
Aún no hay calificaciones
Terminos y Definiciones
8 páginas
05 Tablas Mapas y Conjuntos 01 Mapas
Aún no hay calificaciones
05 Tablas Mapas y Conjuntos 01 Mapas
15 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
66 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
Introducción A Spark
Aún no hay calificaciones
Introducción A Spark
14 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Ejecución de MapReduce Grep en Hadoop
Aún no hay calificaciones
Ejecución de MapReduce Grep en Hadoop
7 páginas
Apuntes
Aún no hay calificaciones
Apuntes
7 páginas
PRII01 Bid Data Stack
Aún no hay calificaciones
PRII01 Bid Data Stack
15 páginas
Temario Robot Structural Analysis Avanzado
Aún no hay calificaciones
Temario Robot Structural Analysis Avanzado
4 páginas
Doctrina Basica V2.0
Aún no hay calificaciones
Doctrina Basica V2.0
3 páginas
Aportes Del Conductismo
Aún no hay calificaciones
Aportes Del Conductismo
20 páginas
Formación y Fertilidad del Suelo
Aún no hay calificaciones
Formación y Fertilidad del Suelo
32 páginas
Contenidos Trompa
Aún no hay calificaciones
Contenidos Trompa
9 páginas
Ley Del 4 de Julio de 1870 - Ley Moret
100% (1)
Ley Del 4 de Julio de 1870 - Ley Moret
3 páginas
Tradiciones
Aún no hay calificaciones
Tradiciones
4 páginas
La Biodiversidad en El Ecuador
Aún no hay calificaciones
La Biodiversidad en El Ecuador
4 páginas
Historia Clínica SEMIOLOGIA
Aún no hay calificaciones
Historia Clínica SEMIOLOGIA
8 páginas
Informe de Práctica de Campo en Geología
100% (1)
Informe de Práctica de Campo en Geología
14 páginas
Topografia Automatizada
Aún no hay calificaciones
Topografia Automatizada
25 páginas
El Terapeuta como Sanador Herido
Aún no hay calificaciones
El Terapeuta como Sanador Herido
10 páginas
Hablar de La Mujer Es Hablar de Una IDEA MARAVILLOSA de DIOS Dia de La Mujer Monicion
100% (2)
Hablar de La Mujer Es Hablar de Una IDEA MARAVILLOSA de DIOS Dia de La Mujer Monicion
2 páginas
Fracking: Controversia y Perspectivas
Aún no hay calificaciones
Fracking: Controversia y Perspectivas
6 páginas
Misoginia y Moralidad Construcción de La Feminidad Medieval en El Corbacho de Arcipreste de Talavera
Aún no hay calificaciones
Misoginia y Moralidad Construcción de La Feminidad Medieval en El Corbacho de Arcipreste de Talavera
14 páginas
Análisis de Datos de Tráfico Web
Aún no hay calificaciones
Análisis de Datos de Tráfico Web
29 páginas
Stock Laptops
Aún no hay calificaciones
Stock Laptops
3 páginas
Axa Reiventando Los Seguros
Aún no hay calificaciones
Axa Reiventando Los Seguros
1 página
Trabajo Final de Pasantia
Aún no hay calificaciones
Trabajo Final de Pasantia
8 páginas
Protocolo IDASE
Aún no hay calificaciones
Protocolo IDASE
2 páginas
Manual 7100 Garetto-1
100% (2)
Manual 7100 Garetto-1
51 páginas
Kami Export - 03. FUHU Por Llenar
Aún no hay calificaciones
Kami Export - 03. FUHU Por Llenar
9 páginas
Guía Unidad 9 y 10 - FI - 2020
Aún no hay calificaciones
Guía Unidad 9 y 10 - FI - 2020
17 páginas
Mapa Conceptual
Aún no hay calificaciones
Mapa Conceptual
1 página
Frenos Traseros de Disco Contour 98
Aún no hay calificaciones
Frenos Traseros de Disco Contour 98
16 páginas
Migración y Nostalgia en "La Jaula de Oro"
Aún no hay calificaciones
Migración y Nostalgia en "La Jaula de Oro"
1 página
Historia de la Independencia Dominicana
Aún no hay calificaciones
Historia de la Independencia Dominicana
1 página
Agricultura Organica
100% (2)
Agricultura Organica
93 páginas
Laboratorio 7 2
Aún no hay calificaciones
Laboratorio 7 2
19 páginas
Intervenciones de Enfermería Preoperatorias
Aún no hay calificaciones
Intervenciones de Enfermería Preoperatorias
4 páginas

Taller MapReduce

Cargado por

Taller MapReduce

Cargado por

TALLER MAP REDUCE

Informe Taller MapReduce

Diego Manuel Montero Mejía

Figura 1:​ Funcionamiento de MapReduce

3. La clase denominada MapReduce ubicada en el paquete ​MapReduce c​ ontiene los diferentes

● Hernández, A. Hernández, A. (2015). Acerca de la aplicación de MapReduce + Hadoop en el

También podría gustarte

Figura 1: Funcionamiento de MapReduce

3. La clase denominada MapReduce ubicada en el paquete MapReduce c ontiene los diferentes