Chap4 MapReduce

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

329 vues17 pages

Chap4 MapReduce

Transféré par

mootaz haddad

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 4 –Mapreduce

Mme Ines Slimene

[Link]@[Link]
Plan module
• Introduction
• Écosystème Hadoop
• HDFS
• MapReduce
• Langages de requête Hadoop :Pig, Hive
• SGBDNR
• Différences entre une BDNR et une BD relationnelle
• Typologies des BD non relationnelles
• Etude d’un SGBDNR : HBase

12/10/2020 MapReduce 2
Plan
• MapReduce1
• Fonctionnement
• Exemple
• Composants de MapReduce
• Limites de MPR1
• Nouveautés Hadoop2
• Yarn
• Gestion des ressources

12/10/2020 MapReduce 3
MapReduce
• Patron d’architecture de développement
• Permet de traiter des données volumineuses de
manière parallèle et distribuée
• Les langages utilisés : Java, Python ou Ruby
• Au lieu de parcourir le fichier séquentiellement
(beaucoup de temps), il est divisé en morceaux qui
sont parcourus en parallèle.

12/10/2020 MapReduce 4
MapReduce
• Ce modèle se base sur 2 étapes :
• Mapping (map tasks) : le développeur définit une
fonction de mappage dont le but sera d'analyser les
données brutes contenues dans les fichiers stockés sur
HDFS pour en sortir les données correctement
formatées.
• Réduction (reduce tasks) : cette tâche récupère les
données construites dans l'étape du mappage et
s'occupe de les analyser dans le but d'en extraire les
informations les plus importantes.

12/10/2020 MapReduce 5
MapReduce: Fonctionnement
• Les Mappers sont de petits
programmes qui commencent par
traiter chacun une petite partie des
données
• Ils fonctionnent en parallèle
• Leurs sorties représentent les
enregistrements intermédiaires : sous
forme d’un couple (clef, valeur)
• Une étape de Mélange et Tri s’ensuit
• Mélange : Sélection des piles de fiches
à partir des Mappers
• Tri: Rangement des piles par ordre au
niveau de chaque Reducer
• Chaque Reducer traite un ensemble
d’enregistrements à la fois, pour
générer les résultats finaux
12/10/2020 MapReduce 6
MapReduce: Exemple
• But : Calculer le nombre d’occurrences des mots constituant le texte.
• L’ensemble du processus est schématisé ci-dessous

12/10/2020 MapReduce 7
MapReduce
• Deux processus JobTracker et TaskTracker

12/10/2020 MapReduce 8
MapReduce
• JobTracker
• Planifie les taches,
• Affecte les tâches aux TaskTrackers.
• Gère les jobs MapReduce et surveille les progrès réalisés
• Récupère les erreurs, et redémarre les tâches lentes et les
taches qui ont échoué
• TaskTracker
• Notifie périodiquement le JobTracker du niveau de
progression d’une tâche ou bien le notifie en cas d’erreur
afin que celui-ci puisse reprogrammer et assigner une
nouvelle tâche.
• S’exécute sur chacun des nœuds pour exécuter les vraies
tâches de MapeReduce
• Choisit en général de traiter (Map ou Reduce) un bloc sur
la même machine que lui
12/10/2020 MapReduce 9
Gestion des ressources
• MapReduce a un modèle de gestion de mémoire inflexible basé sur les
slot.
• Chaque TaskTracker est configuré au démarrage pour avoir un
nombre bien déterminé de slots (map slot, reduce slot) pour
l’exécution des tâches
• Une tache est exécutée dans un seul slot
• Les slots sont configurés au démarrage pour avoir un maximum
d’espace mémoire

12/10/2020 MapReduce 10
Limites de MPR1
• Scalabilité limitée : Le JobTracker s’exécute sur une seule
machine.
Ses rôles sont :
• Gestion des ressources
• Ordonnancement et suivi des Job
• Problème de disponibilité : Le JobTracker est un SPOF. S’il
est endommagé, tous les jobs doivent être redémarrés
• Problème d’utilisation des ressources : Il y a un nombre
prédéfini de map slots et reduce slots pour chaque
TaskTrackers.
• Utilisation des applications non-MapReduce : Le JobTracker
est intégré à MapReduce et ne supporte que les applications
utilisant le framework de programmation MapReduce

12/10/2020 MapReduce 11
Nouveautés Hadoop 2
• YARN – Possibilité de traitement de Terabytes et Petabytes
de données existants dans HDFS en utilisant des application
Non-MapReduce

• Resource Manager – Séparation des deux fonctionnalités

essentielles du jobtracker (gestion des ressources et
ordonnancement et suivi des jobs) en deux composants
séparés :
• Gestionnaire de Resource
• Gestionnaire d’application

Jobtracker et Tascktracker
n’existent plus.

12/10/2020 MapReduce 12
YARN
• YARN sépare la gestion des
ressources/ordonnancement des job du traitement
des données. Permettant a Hadoop de supporter
d’autre applications de traitement de données.
• Par exemple, Hadoop peut maintenant exécuter
des requêtes interactives et des flot de données
simultanément avec des jobs mapreduce.

12/10/2020 MapReduce 13
Gestion des ressources
• La nouvelle génération du framework MapReduce
est une application qui s’exécute avec Yarn.
• Le nouveau framework MRv2 divise les deux
fonctions majeurs du JobTracker, en gestion des
ressources et ordonnancement/suivi des jobs avec
des composants séparés.

12/10/2020 MapReduce 14
Gestion des ressources
• Resource Manager (RM)
• Tourne sur le nœud master
• Ordonnanceur de ressources global
• Permet l’arbitrage des ressources entre plusieurs applications
• Node Manager (NM)
• S’exécute sur les nœuds esclaves
• Communique avec le RM
• Application Master (AM)
• Crée par le NM
• Un seul AM par application
• Demande plusieurs containers pour exécuter les tâches de l’application
• Container
• Crée par l’AM
• Se voit allouer des ressources sur le nœud esclave

12/10/2020 MapReduce 15
Exécution d’un job

12/10/2020 MapReduce 16
Fault Tolerance
• Task (Container) : L’application Master essaye de re-exécuter la
tache. Si au bout de 4 tentatives aucune réponse, la tache est
considérée comme failed.
• Application Master : si AM n’envois plus de heartbeat, RM
essayera de re-exécuter la totalité de l’application (2tentatives)
Si la valeur de l’option Job recovery du AppMaster est false,
toutes les taches seront re-exécutées. Sinon,
l’AppMaster reprend l’état des taches lors du démarrage et re-
exécute les taches incomplètes
• NodeManager : si les NM n’envoient plus de heartbeats au RM, il
sera supprimé de la liste des nœuds. Les taches seront
considérées comme failed par l’AppMaster.
• ResourceManager : aucune application ni tache ne peut être
exécutée si le RM est non fonctionnel. (possibilité d’avoir un
Resource Manager active et un Resource Manager (standby)

12/10/2020 MapReduce 17

Vous aimerez peut-être aussi

MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
CHAPITRE3 Fondements Big Data MR YARN 2024
Pas encore d'évaluation
CHAPITRE3 Fondements Big Data MR YARN 2024
24 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
QCM Apache Spark
Pas encore d'évaluation
QCM Apache Spark
6 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Design Patterns Hadoop pour Big Data
100% (1)
Design Patterns Hadoop pour Big Data
6 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
TP4 Spark MLlib
Pas encore d'évaluation
TP4 Spark MLlib
7 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Big Data et Système Hadoop: Guide Complet
Pas encore d'évaluation
Big Data et Système Hadoop: Guide Complet
42 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
DS Big Data2024
Pas encore d'évaluation
DS Big Data2024
4 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
Big Data QCM 1 PDF
Pas encore d'évaluation
Big Data QCM 1 PDF
7 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Exam Big Data Version Finale
Pas encore d'évaluation
Exam Big Data Version Finale
7 pages
Chapitre2 Introduction MongoDB
Pas encore d'évaluation
Chapitre2 Introduction MongoDB
24 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
Chapitre 4 Web Sémantique
Pas encore d'évaluation
Chapitre 4 Web Sémantique
127 pages
C41-MapReduce Design Patterns
Pas encore d'évaluation
C41-MapReduce Design Patterns
23 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
TP 2 Sparql
Pas encore d'évaluation
TP 2 Sparql
4 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Model Driven Architecture
Pas encore d'évaluation
Model Driven Architecture
29 pages
Big Data Chap 2 - Principes Hadoop
Pas encore d'évaluation
Big Data Chap 2 - Principes Hadoop
51 pages
Cours SOA pour Master Informatique
Pas encore d'évaluation
Cours SOA pour Master Informatique
87 pages
Service Web REST
Pas encore d'évaluation
Service Web REST
20 pages
Cours sur l'Architecture SOA et XML
Pas encore d'évaluation
Cours sur l'Architecture SOA et XML
64 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (1)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
EPI BigData Partie4 Hadoop Sagar Samya
Pas encore d'évaluation
EPI BigData Partie4 Hadoop Sagar Samya
48 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Cassandra: Architecture et Stratégies NOSQL
100% (1)
Cassandra: Architecture et Stratégies NOSQL
20 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
QCM Big Data : Testez vos connaissances
Pas encore d'évaluation
QCM Big Data : Testez vos connaissances
2 pages
TD
Pas encore d'évaluation
TD
15 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
16 pages
MapReduce et YARN : Concepts Clés
Pas encore d'évaluation
MapReduce et YARN : Concepts Clés
25 pages
TIA-P - Cours1 - Copie
Pas encore d'évaluation
TIA-P - Cours1 - Copie
48 pages
Compte Rendu Informatique
Pas encore d'évaluation
Compte Rendu Informatique
10 pages
TD3 - Architecture Pipeline
Pas encore d'évaluation
TD3 - Architecture Pipeline
2 pages
Révisions CC1
Pas encore d'évaluation
Révisions CC1
5 pages
Optimisation Datalog : Sets Magiques
Pas encore d'évaluation
Optimisation Datalog : Sets Magiques
43 pages
Examen Blanc C 24 25
Pas encore d'évaluation
Examen Blanc C 24 25
5 pages
03 TD Ordonnancement-Corr
Pas encore d'évaluation
03 TD Ordonnancement-Corr
4 pages
Projet Big Data : Apache Ambari
Pas encore d'évaluation
Projet Big Data : Apache Ambari
9 pages
Super - Cours - KHAMMARI Mohammed - Administration de Bases de Données
Pas encore d'évaluation
Super - Cours - KHAMMARI Mohammed - Administration de Bases de Données
73 pages
Chapitre 3 Techniques Algorithmiques
Pas encore d'évaluation
Chapitre 3 Techniques Algorithmiques
77 pages
TP1 Systèmes : Gestion de Fichiers ENSAO
Pas encore d'évaluation
TP1 Systèmes : Gestion de Fichiers ENSAO
2 pages
Poly Mp2i
Pas encore d'évaluation
Poly Mp2i
736 pages
Architecture Microservices Concept
Pas encore d'évaluation
Architecture Microservices Concept
5 pages
Microcontroleur
100% (1)
Microcontroleur
12 pages
COURS ProgDeskTop 2025
Pas encore d'évaluation
COURS ProgDeskTop 2025
72 pages
Chap 4
Pas encore d'évaluation
Chap 4
23 pages
Larp
Pas encore d'évaluation
Larp
7 pages
Chat App
Pas encore d'évaluation
Chat App
12 pages
02-Chapitre II Fichiers 19 11
Pas encore d'évaluation
02-Chapitre II Fichiers 19 11
7 pages
Cours Labview
Pas encore d'évaluation
Cours Labview
43 pages
TP1 Prise en Main Spyder
Pas encore d'évaluation
TP1 Prise en Main Spyder
6 pages
Exposé Développement Mobile Complet
Pas encore d'évaluation
Exposé Développement Mobile Complet
4 pages
Hiba Khaled CV Ss
Pas encore d'évaluation
Hiba Khaled CV Ss
1 page
Chap1 Introduction Aux Compilateurs
Pas encore d'évaluation
Chap1 Introduction Aux Compilateurs
8 pages
Chapitre3 - Part2
Pas encore d'évaluation
Chapitre3 - Part2
34 pages
Cours Excel Vba
Pas encore d'évaluation
Cours Excel Vba
8 pages
Correction - TP4 - Processus Et Parallelisme 1
Pas encore d'évaluation
Correction - TP4 - Processus Et Parallelisme 1
3 pages
AP1 Chapitre 1,2,3
Pas encore d'évaluation
AP1 Chapitre 1,2,3
27 pages
Ihm (C#)
Pas encore d'évaluation
Ihm (C#)
2 pages
TP de PL/SQL et Gestion de Données
Pas encore d'évaluation
TP de PL/SQL et Gestion de Données
11 pages