MapReduce
Plan
Introduction
Définition
Comment fonctionne Hadoop
MapReduce ?
Introduction
Définition
MapReduce est un modèle de programmation , créé par Google , massivement
parallèle adapté au traitement de très grandes quantités de données. Les
programmes adoptant ce modèle sont automatiquement parallélisés et exécutés
sur des clusters d'ordinateurs.
JobTracker : Client
▪ Il reçoit les demandes d'exécution du client.
▪ Il communique avec le NameNode pour déterminer
l'emplacement des données.
▪ Il divise le travail sur des blocs, s’exécutant sur les différents
noeuds.
▪ Lorsque le JobTracker est en panne, le HDFS sera toujours JobTracker
fonctionnel mais l'exécution MapReduce ne pourra pas être
lancée et les travaux MapReduce existants seront arrêtés.
TaskTracker :
▪ Il s’exécute sur chacun des nœuds . TaskTracker TaskTracker TaskTracker
▪ Lorsqu'un TaskTracker ne répond plus, le JobTracker
attribue la tâche à un autre nœud.
Comment fonctionne Hadoop MapReduce ?
✓ Map stage :
Input Format
Input Split
KV11 KV21 …. KVn1 KV21 KV22 …. KV2m KVn1 KVn2 …. KVnm RecordReader
Mapper Mapper Mapper
{ Waled , 1 }
{ Mervat , 1 }
✓ Combine stage :
Mapper Mapper Mapper Mapper
Value1 a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Key1 Value5 Combiner Combiner Combiner Combiner
Value7
a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
✓ Partition stage :
Mapper Mapper Mapper Mapper
Le Partitionneur prend la sortie
du Combineur et effectue le
partitionnement. La clé sert à
a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
dériver la partition.
Combiner Combiner Combiner Combiner
Le nombre de partitions est
similaire au nombre de tâches de
réduction.
a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner
✓ Shuffle and sort
stage :
Mapper Mapper Mapper Mapper
a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Combiner Combiner Combiner Combiner
a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner
Shuffle and sort
a 1 1 b 1 1 c 2 1 1
✓ Reducer stage :
Mapper Mapper Mapper Mapper
a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Combiner Combiner Combiner Combiner
a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner
Shuffle and sort
a 1 1 b 1 1 c 2 1 1
Reducer Reducer Reducer
X 2 Y 2 Z 4
Merci pour votre attention