Exposé MapReduce

Le document présente MapReduce, un modèle de programmation introduit par Google pour traiter de grandes quantités de données en parallèle sur plusieurs nœuds. Il explique le concept de Big Data, ses caractéristiques, et comment MapReduce permet de surmonter les limitations des systèmes de traitement de données traditionnels. Le texte détaille également le fonctionnement de MapReduce à travers les étapes de Map et Reduce, ainsi qu'un exemple pratique d'application.

Transféré par

Djiddo Moussa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

49 vues30 pages

Exposé MapReduce

Transféré par

Djiddo Moussa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

THEME : MapReduce

Fait par : KAZOUNE BOUBA Israël

[email protected]

+237 692-636-908/+237 683-532-517

19A0338P

Sous la coordination de : M. GAZiSSOU

Introduction
A l’heure actuelle, la science vit une révolution qui conduit à nouveau
paradigme selon lequel la science est dans les données, autrement dit la
connaissance émerge du traitement des données.
L’extraction de connaissances à partir de grands volumes de données (en
particulier quand le nombre de données est bien plus grand que la taille
de l’échantillon) , l’apprentissage statistique, l’agrégation de données
hétérogènes, la visualisation et la navigation dans de grands espaces de
données et de connaissances sont autant d’instruments qui permettent
d’observer des phénomènes, de valider des hypothèses, d’élaborer de
Introduction
nouveaux modèles ou de prendre des décisions en situation critique.
Un des enjeux concerne le traitement de grandes quantités de données.
Ce traitement ne peut être réalisé avec les paradigmes classiques de
traitement de données et nécessite l’utilisation de plateformes
distribuées de calcul.
MapReduce est un modèle de programmation pour écrire des
applications capables de traiter le Big Data en parallèle sur plusieurs
nœuds. MapReduce fournit des capacités analytiques pour analyser
d'énormes volumes de données complexes.
Sources de données
Concept du Big Data
Le Big Data est une collection de grands ensembles de données qui ne
peuvent pas être traités à l'aide de techniques informatiques
traditionnelles.
Par exemple, le volume de données que Facebook, Youtube, Twitter
doivent collecter et gérer au quotidien peut relever de la catégorie du
Big Data. Cependant, le Big Data n'est pas seulement une question
d'échelle et de volume, il implique également un ou plusieurs des
aspects suivants : vitesse, variété, volume et complexité donnant
naissance ainsi à ses caractéristiques 3V ou 5V.
Illustration de l’évolution de données
Croissance des volumes de données générées par les appareils
mobiles en France de 2009 à 2013

64% d’augmentation
C’est quoi MapReduce?
MapReduce a été introduit par Google en 2004
▪ MapReduce est un:
▪ Un modèle de programmation
▪ avec un schéma très contraint, qui permet:
▪ parallélisation automatique
▪ de l’équilibrage de charge
▪ des optimisations sur les transferts disques et réseaux.
En gros, MapReduce est un paradigme de programmation parallèle visant à
généraliser les approches existantes pour produire une approche unique
applicable à tous les problèmes.
Intérêt de MapReduce
MapReduce est une application utilisée pour le traitement d'énormes
ensembles de données. Ces jeux de données peuvent être traités en
parallèle. MapReduce peut potentiellement créer de grands ensembles de
données et un grand nombre de nœuds. Ces grands ensembles de données
sont stockés sur HDFS, ce qui facilite l'analyse des données. Il peut
traiter tout type de données telles que structurées, non structurées ou
semi-structurées.
Les systèmes de bases de données relationnelles disposent d'un serveur
centralisé qui aide au stockage et au traitement des données. Il s'agissait
généralement de systèmes centralisés.
Intérêt de MapReduce
MapReduce est une application utilisée pour le traitement d'énormes
ensembles de données. Ces jeux de données peuvent être traités en
parallèle. MapReduce peut potentiellement créer de grands ensembles de
données et un grand nombre de nœuds. Ces grands ensembles de données
sont stockés sur HDFS, ce qui facilite l'analyse des données. Il peut
traiter tout type de données telles que structurées, non structurées ou
semi-structurées.
Les systèmes de bases de données relationnelles disposent d'un serveur
centralisé qui aide au stockage et au traitement des données. Il s'agissait
généralement de systèmes centralisés.
Intérêt de MapReduce
Lorsque plusieurs fichiers apparaissent dans l'image, le traitement est
fastidieux et crée un goulot d'étranglement lors du traitement de plusieurs
fichiers. MapReduce mappe l'ensemble de données et convertit
l'ensemble de données où toutes les données sont divisées en tuples et la
tâche de réduction prendra la sortie de cette étape et combinera ces tuples
de données dans les ensembles plus petits. Il fonctionne en différentes
phases et crée des paires clé-valeur qui peuvent être réparties sur
différents systèmes.
Intérêt de MapReduce
Les systèmes d'entreprise traditionnels disposent normalement d'un
serveur centralisé pour stocker et traiter les données. L'illustration
suivante représente une vue schématique d'un système d'entreprise
traditionnel. Le modèle traditionnel n'est certainement pas adapté pour
traiter d'énormes volumes de données évolutives et ne peut pas être pris
en charge par des serveurs de base de données standard. De plus, le
système centralisé crée trop de goulots d'étranglement lors du traitement
simultané de plusieurs fichiers.
Intérêt de MapReduce
C’est ainsi que Google a pu résoudre ce problème de goulot
d'étranglement en utilisant un algorithme appelé MapReduce.
MapReduce divise une tâche en petites parties et les affecte à plusieurs
ordinateurs. Plus tard, les résultats sont collectés à un endroit et intégrés
pour former l'ensemble de données de résultats.
Principe de fonctionnement de MapReduce
L'algorithme MapReduce contient deux tâches importantes, à savoir Map
et Reduce.

❖Map : la tâche Map prend un ensemble de données et le convertit en un

autre ensemble de données, où les éléments individuels sont
décomposés en tuples pour chaque donnée d’entrée lue;
❖Reduce : la tâche Reduce prend la sortie de Map comme entrée et
combine ces tuples de données (paires clé-valeur) en un ensemble plus
petit de tuples.
Principe de fonctionnement de MapReduce
❖ Phase d''entrée - Ici, nous avons un lecteur d'enregistrements qui
traduit chaque enregistrement dans un fichier d'entrée et envoie les
données analysées au mappeur sous la forme de paires clé-valeur.

❖ Map - Map est une fonction définie par l'utilisateur, qui prend une
série de paires clé-valeur et traite chacune d'elles pour générer zéro ou
plusieurs paires clé-valeur.
❖ Clés intermédiaires - Les paires clé-valeur générées par le mappeur
sont appelées clés intermédiaires.
Principe de fonctionnement de MapReduce
❖ Combinateur : Un combinateur est un type de réducteur local qui
regroupe des données similaires de la phase de carte dans des
ensembles identifiables. Il prend les clés intermédiaires du mappeur
en entrée et applique un code défini par l'utilisateur pour agréger les
valeurs dans une petite portée d'un mappeur. Il ne fait pas partie de
l'algorithme MapReduce principal ; c'est facultatif.
Principe de fonctionnement de MapReduce
❖ Mélanger et trier - La tâche du réducteur commence par l'étape
Mélanger et trier. Il télécharge les paires clé-valeur groupées sur la
machine locale, sur laquelle le réducteur est en cours d'exécution.
Les paires clé-valeur individuelles sont triées par clé dans une liste
de données plus grande. La liste de données regroupe les clés
équivalentes afin que leurs valeurs puissent être itérées facilement
dans la tâche Reducer.
Principe de fonction de MapReduce
❖ Réducteur - Le Réducteur prend en entrée les données paires clé-
valeur groupées et exécute une fonction Réducteur sur chacune
d'entre elles. Ici, les données peuvent être agrégées, filtrées et
combinées de plusieurs façons, et cela nécessite un large éventail de
traitements. Une fois l'exécution terminée, il donne zéro ou plusieurs
paires clé-valeur à l'étape finale.
Principe de fonction de MapReduce
❖ Phase de sortie - Dans la phase de sortie, nous avons un formateur
de sortie qui traduit les paires clé-valeur finales de la fonction
Reducer et les écrit dans un fichier à l'aide d'un enregistreur
d'enregistrement.
Procédure de traitement de données : Les
algorithmes de MapReduce
Pour traiter les données d’une entreprise utilisant MapReduce, les
algorithmes implémentés suivent la logique ci-après :

1. Choisir une manière de découper les données

2. Choisir la clé à utiliser pour le problème à resoudre

3. Ecrie le programme pour l’opération Map

4. Ecrie le programme pour l’opération Reduce

Exercice corrigé
On veut connaitre le nombre d’occurrence de chacun des mots dans
un fichier d’entrée textuel.
Celui qui croyait au ciel
Celui qui n’y croyait pas
❖Découpage : Fou qui fait le délicat
Fou qui songe à ses querelles
❖Celui qui croyait au ciel
❖ Celui qui n’y croyait pas
❖Fou qui fait le délicat
❖Fou qui songe à ses querelles
Exercice corrigé
❖ Opération Map:
❖Celui qui croyait au ciel (celui;1)(qui;1)(croyait:1)(au;1)(ciel;1)

❖ Celui qui n’y croyait pas (celui;1)(qui;1)(ny;1)(croyait:1)(au;1)(ciel;1)

❖Fou qui fait le délicat (fou;1)(qui;1)(fait;1)(le;1)(delicat;1)

❖Fou qui songe à ses querelles
(fou;1)(qui;1)(songe;1)(a;1)(ses;1)(querelles;1)
Exercice corrigé
❖ Opération de Shuffer c’est-à-dire le regroupement des clés
communes
❖fait;1)
❖(celui;1) (celui;1)
❖(le;1)
❖(qui;1) (qui;1) (qui;1) (qui;1)
❖(delicat;1)
❖(croyait:1) (croyait:1)
❖(songe;1)
❖(au;1)

❖(ciel;1)
❖(a;1)

❖(pas;1) ❖(ses;1)
❖(querelles;1)
❖(fou;1)(fou;1)
Exercice corrigé
❖ Opération Reducer :
❖Au : 1
❖ qui : 4
❖Ciel :1
❖Celui :2
❖Ny:1
❖Croyait : 2
❖Pas
❖Fou : 2
❖Fait:1
Les Prototypes des algorithmes MapReduce
Map(String key, String values) :
foreach word w in input_values:
EmitIntermediate( w, "1");

Reduce (String key, Iterator intermediate_values):

int result=0;
foreach v in intermediate_values:
result += ParseInt( v );
Emit( key, String(result));
L’algorithme Mapper
Implémentation de l’algorithme Map en python
L’algorithme Mapper
Dans cet algorithme nous remarquons avoir d’importer la librairie
système dans lequel nous utilisons la librairie syst.stdin qui est la
librairie gérant les entrées standard des données.

La fonction split() en python permet de decouper tout les mots dans

un text ou fichier.
Algorithme Reducer
Prenons un exercice pratique
Soit le contenu du fichier ci-dessous. Nous allons applique les
algorithmes de mappage et de réduction a cet fichier nommé
fichier.txt
Prenons un exercice pratique
Nous avons appliqués l’algorithme de mappage à ce fichier voilà le
résultat.
Prenons un exercice pratique
Nous allons appliqués l’algorithme de Reduction aussi au même
fichier voilà le résultat.

Vous aimerez peut-être aussi

MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
(Big Data) CHAP3 - MapReduce
Pas encore d'évaluation
(Big Data) CHAP3 - MapReduce
29 pages
CBG Cours1
Pas encore d'évaluation
CBG Cours1
36 pages
Chap4 Mapreduce
Pas encore d'évaluation
Chap4 Mapreduce
35 pages
CH 4 MapReduce
Pas encore d'évaluation
CH 4 MapReduce
18 pages
Hdfs Mapreduce
Pas encore d'évaluation
Hdfs Mapreduce
43 pages
Chap 01a - MapReduce
Pas encore d'évaluation
Chap 01a - MapReduce
73 pages
Introduction à MapReduce et Big Data
Pas encore d'évaluation
Introduction à MapReduce et Big Data
65 pages
Big Data: Marie NDIAYE
Pas encore d'évaluation
Big Data: Marie NDIAYE
11 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Diapo3 Big Data
Pas encore d'évaluation
Diapo3 Big Data
37 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
Exposé MapRedure & HIve
Pas encore d'évaluation
Exposé MapRedure & HIve
17 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
Hadoop MP Industrie 4
Pas encore d'évaluation
Hadoop MP Industrie 4
18 pages
Mif18 CM Mapreduce
Pas encore d'évaluation
Mif18 CM Mapreduce
36 pages
Cours 5 Map Reduce
Pas encore d'évaluation
Cours 5 Map Reduce
10 pages
CHAPITRE3 Fondements Big Data MR YARN 2024
Pas encore d'évaluation
CHAPITRE3 Fondements Big Data MR YARN 2024
24 pages
Introduction au Big Data et Hadoop
100% (1)
Introduction au Big Data et Hadoop
6 pages
Exploitation Des Data Centers Et Cloud Computing
Pas encore d'évaluation
Exploitation Des Data Centers Et Cloud Computing
26 pages
Map Reduce
Pas encore d'évaluation
Map Reduce
11 pages
Notes Diapo 4
Pas encore d'évaluation
Notes Diapo 4
4 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
Introduction à MapReduce avec Hadoop
Pas encore d'évaluation
Introduction à MapReduce avec Hadoop
16 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
18 pages
MapReduce dans l'Écosystème Hadoop
Pas encore d'évaluation
MapReduce dans l'Écosystème Hadoop
25 pages
Cours Gratuit - Com Id 11770
Pas encore d'évaluation
Cours Gratuit - Com Id 11770
56 pages
TP Map Reduce
100% (2)
TP Map Reduce
3 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
NoSQL4 5
Pas encore d'évaluation
NoSQL4 5
20 pages
Introduction à Map-Reduce et Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et Hadoop
39 pages
Cours 3-Pages-2
Pas encore d'évaluation
Cours 3-Pages-2
18 pages
Map Reduce
Pas encore d'évaluation
Map Reduce
2 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
37 pages
Parallelisation & Map-Reduce
Pas encore d'évaluation
Parallelisation & Map-Reduce
11 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
Cours Hadoop
Pas encore d'évaluation
Cours Hadoop
56 pages
Map Reduce
Pas encore d'évaluation
Map Reduce
5 pages
TD 4
Pas encore d'évaluation
TD 4
1 page
Big Data : Stockage et Traitement Parallèle
Pas encore d'évaluation
Big Data : Stockage et Traitement Parallèle
69 pages
C2 MapReduce YARN
Pas encore d'évaluation
C2 MapReduce YARN
48 pages
Architecture HDFS et MapReduce
Pas encore d'évaluation
Architecture HDFS et MapReduce
33 pages
Big Data
Pas encore d'évaluation
Big Data
11 pages
Hadoop: Architecture et Outils
Pas encore d'évaluation
Hadoop: Architecture et Outils
58 pages
Introduction Aux Algorithmes MapReduce
Pas encore d'évaluation
Introduction Aux Algorithmes MapReduce
43 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
Slides Big Data PDF
Pas encore d'évaluation
Slides Big Data PDF
45 pages
MapReduce MiniProjet
Pas encore d'évaluation
MapReduce MiniProjet
12 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
HADOOP
Pas encore d'évaluation
HADOOP
44 pages
L'analyse Ultime Du Big Data Avec Apache Hadoop
Pas encore d'évaluation
L'analyse Ultime Du Big Data Avec Apache Hadoop
16 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
16 pages
Introduction à Hadoop : Traitement et Stockage
Pas encore d'évaluation
Introduction à Hadoop : Traitement et Stockage
8 pages
Chap 5
Pas encore d'évaluation
Chap 5
28 pages
résBigData 2
Pas encore d'évaluation
résBigData 2
11 pages
Introduction A Hadoop
Pas encore d'évaluation
Introduction A Hadoop
8 pages
Semaine12 FINAL
Pas encore d'évaluation
Semaine12 FINAL
19 pages
Conception Et D Eploiement D'Un Mod' Ele Machine Learning Pour La PR Ediction Du Rendement de La Culture Du Coton. Cas de La Sodecoton
Pas encore d'évaluation
Conception Et D Eploiement D'Un Mod' Ele Machine Learning Pour La PR Ediction Du Rendement de La Culture Du Coton. Cas de La Sodecoton
28 pages
TPE Web Mining
Pas encore d'évaluation
TPE Web Mining
3 pages
Projet DUT
Pas encore d'évaluation
Projet DUT
18 pages
Gestion Automatisée des Demandeurs d'Emploi HIMO
Pas encore d'évaluation
Gestion Automatisée des Demandeurs d'Emploi HIMO
22 pages
Gestion de Stock pour Notre Dame Cosmetique
Pas encore d'évaluation
Gestion de Stock pour Notre Dame Cosmetique
21 pages
Dut Iut3
Pas encore d'évaluation
Dut Iut3
22 pages
Guide des citations selon le style IEEE
Pas encore d'évaluation
Guide des citations selon le style IEEE
40 pages
Présentation du Cloud Computing à l'Université de Maroua
Pas encore d'évaluation
Présentation du Cloud Computing à l'Université de Maroua
15 pages
Theme
Pas encore d'évaluation
Theme
16 pages
TD Programmation Avancée en C
Pas encore d'évaluation
TD Programmation Avancée en C
7 pages
HBase
Pas encore d'évaluation
HBase
26 pages
YORATECH : Services et Expertise à Marrakech
Pas encore d'évaluation
YORATECH : Services et Expertise à Marrakech
16 pages
Enseigner le FLE en Primaire en Espagne
Pas encore d'évaluation
Enseigner le FLE en Primaire en Espagne
28 pages
En Attendant IPTV TECH ULTIME ...
Pas encore d'évaluation
En Attendant IPTV TECH ULTIME ...
10 pages
Sous-programmes en Python : Concepts clés
Pas encore d'évaluation
Sous-programmes en Python : Concepts clés
66 pages
UML pour 2ème Année Génie Logiciel
Pas encore d'évaluation
UML pour 2ème Année Génie Logiciel
10 pages
Équipe de Soudeurs KUKA Cherche CDD
50% (2)
Équipe de Soudeurs KUKA Cherche CDD
28 pages
Catalogue Pfe 2019 - Vermeg
100% (1)
Catalogue Pfe 2019 - Vermeg
27 pages
Manuel Logiciel F454
Pas encore d'évaluation
Manuel Logiciel F454
56 pages
Présentation LMS Plateforme E-Learning MOOC 09052020
Pas encore d'évaluation
Présentation LMS Plateforme E-Learning MOOC 09052020
11 pages
Cours Trait Image
Pas encore d'évaluation
Cours Trait Image
31 pages
WIFI
100% (1)
WIFI
25 pages
Projet1 - VHDL - Mini-Calculateur
Pas encore d'évaluation
Projet1 - VHDL - Mini-Calculateur
9 pages
TP Securite
Pas encore d'évaluation
TP Securite
5 pages
CFP INPP - A05 - Coupe Terrain Perspective 1
Pas encore d'évaluation
CFP INPP - A05 - Coupe Terrain Perspective 1
1 page
Fiche Pédagogique Algo Leçon
Pas encore d'évaluation
Fiche Pédagogique Algo Leçon
6 pages
Cle Office 19
Pas encore d'évaluation
Cle Office 19
10 pages
Certification LPIC-2 : Administration Linux
Pas encore d'évaluation
Certification LPIC-2 : Administration Linux
563 pages
TD14 Adressage IPV4
Pas encore d'évaluation
TD14 Adressage IPV4
7 pages
Examen Blanc Ccna1 PDF
50% (2)
Examen Blanc Ccna1 PDF
66 pages
Système de Gestion Des Plaintes
Pas encore d'évaluation
Système de Gestion Des Plaintes
30 pages
Dictées de Mots CE1-CE2 à Imprimer PDF
Pas encore d'évaluation
Dictées de Mots CE1-CE2 à Imprimer PDF
1 page
Conseil Pour Expose
Pas encore d'évaluation
Conseil Pour Expose
50 pages
Informatique Appliquee - 2a Sup-Mines
Pas encore d'évaluation
Informatique Appliquee - 2a Sup-Mines
28 pages
Terex Demag Ac 100 4 Part Catalogue
100% (61)
Terex Demag Ac 100 4 Part Catalogue
4 pages
Fis BT Offre Box Adsl Starter Int Tel en Zone Non Dégroupée 211123
Pas encore d'évaluation
Fis BT Offre Box Adsl Starter Int Tel en Zone Non Dégroupée 211123
1 page
Chronometrage V11
Pas encore d'évaluation
Chronometrage V11
14 pages
Solution TD N°04 (LDAP) - 1
100% (2)
Solution TD N°04 (LDAP) - 1
3 pages
Configuration et Paramétrage S7-300
Pas encore d'évaluation
Configuration et Paramétrage S7-300
7 pages
Geomatique Et Societe-2
0% (1)
Geomatique Et Societe-2
34 pages
Outils et principes de l'audit informatique
Pas encore d'évaluation
Outils et principes de l'audit informatique
11 pages