0% ont trouvé ce document utile (0 vote)
17 vues12 pages

MapReduce MiniProjet

MapReduce est un modèle de programmation développé par Google pour le traitement parallèle de grandes quantités de données sur des clusters d'ordinateurs. Il fonctionne en plusieurs étapes, notamment le mappage, la combinaison, le partitionnement, le tri et le regroupement des données, avec des composants clés tels que JobTracker et TaskTracker pour gérer les tâches. En cas de défaillance du JobTracker, l'exécution des travaux MapReduce est interrompue, mais le système de fichiers HDFS reste opérationnel.

Transféré par

chaymae.rami.d24
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
17 vues12 pages

MapReduce MiniProjet

MapReduce est un modèle de programmation développé par Google pour le traitement parallèle de grandes quantités de données sur des clusters d'ordinateurs. Il fonctionne en plusieurs étapes, notamment le mappage, la combinaison, le partitionnement, le tri et le regroupement des données, avec des composants clés tels que JobTracker et TaskTracker pour gérer les tâches. En cas de défaillance du JobTracker, l'exécution des travaux MapReduce est interrompue, mais le système de fichiers HDFS reste opérationnel.

Transféré par

chaymae.rami.d24
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

MapReduce

Plan
Introduction
Définition
Comment fonctionne Hadoop
MapReduce ?
Introduction
Définition

MapReduce est un modèle de programmation , créé par Google , massivement


parallèle adapté au traitement de très grandes quantités de données. Les
programmes adoptant ce modèle sont automatiquement parallélisés et exécutés
sur des clusters d'ordinateurs.
JobTracker : Client
▪ Il reçoit les demandes d'exécution du client.
▪ Il communique avec le NameNode pour déterminer
l'emplacement des données.
▪ Il divise le travail sur des blocs, s’exécutant sur les différents
noeuds.
▪ Lorsque le JobTracker est en panne, le HDFS sera toujours JobTracker
fonctionnel mais l'exécution MapReduce ne pourra pas être
lancée et les travaux MapReduce existants seront arrêtés.

TaskTracker :
▪ Il s’exécute sur chacun des nœuds . TaskTracker TaskTracker TaskTracker
▪ Lorsqu'un TaskTracker ne répond plus, le JobTracker
attribue la tâche à un autre nœud.
Comment fonctionne Hadoop MapReduce ?
✓ Map stage :
Input Format

Input Split

KV11 KV21 …. KVn1 KV21 KV22 …. KV2m KVn1 KVn2 …. KVnm RecordReader

Mapper Mapper Mapper

{ Waled , 1 }

{ Mervat , 1 }
✓ Combine stage :
Mapper Mapper Mapper Mapper

Value1 a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Key1 Value5 Combiner Combiner Combiner Combiner
Value7

a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
✓ Partition stage :
Mapper Mapper Mapper Mapper
Le Partitionneur prend la sortie
du Combineur et effectue le
partitionnement. La clé sert à
a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
dériver la partition.
Combiner Combiner Combiner Combiner
Le nombre de partitions est
similaire au nombre de tâches de
réduction.
a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner
✓ Shuffle and sort
stage :
Mapper Mapper Mapper Mapper

a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Combiner Combiner Combiner Combiner

a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner

Shuffle and sort


a 1 1 b 1 1 c 2 1 1
✓ Reducer stage :
Mapper Mapper Mapper Mapper

a 1 b 1 c 1 c 1 a 1 c 1 b 1 c 1
Combiner Combiner Combiner Combiner

a 1 b 1 c ( 1,1) a 1 c 1 b 1 c 1
Partitioner

Shuffle and sort


a 1 1 b 1 1 c 2 1 1

Reducer Reducer Reducer

X 2 Y 2 Z 4
Merci pour votre attention

Vous aimerez peut-être aussi