0% ont trouvé ce document utile (0 vote)

105 vues5 pages

TP Hadoop: MapReduce et Python

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

105 vues5 pages

TP Hadoop: MapReduce et Python

Transféré par

ADAM hassouni

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

TP2:Programmation avec l’API

Mapreduce
L’objectif de ce TP est de :
 Lancer le cluster hadoop
 s’initier à la programmation avec mapreduce

1. démarrer le cluster hadoop

 Démarrer les trois containers arrêtés précédemment
docker start haoop-master hadoop-slave1 hadoop-slave2

 A la fin du démarrage, vérifier si les interfaces web correspondantes ont démarré

correctement. Pour ce faire Dans un navigateur, entrer les adresses :
[Link]
L’interface utilisateur ressource manager permet de surveiller et de gérer votre cluster Yarn
[Link]
l'interface utilisateur Web NameNode permet d’accéder aux informations de votre cluster hadoop (le
nombre de nœuds, espace de stockage, le contenu du système de fichiers HDFS)
L’objectif de ce TP est de simuler l’exemple wordcount vu dans le cours
2. classe Mapper
Créer une première classe Mapper
package [Link];

import [Link];
import [Link];

import [Link];
import [Link];
import [Link];

public class TokenizerMapper extends Mapper<Object, Text,

Text, IntWritable>{
private final static IntWritable one = new
IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context)

throws IOException, InterruptedException {
[Link]([Link]());

YASSER EL MADANI EL ALAMI 1

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

StringTokenizer itr = new

StringTokenizer([Link]());
while ([Link]()) {
[Link]([Link]());
[Link](word, one);
}
}
}
3. classe reducer
Créer une la classe reducer
package [Link];
import [Link];

import [Link];
import [Link];
import [Link];

public class IntSumReducer extends

Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable>

values, Context context) throws IOException,
InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += [Link]();
}
[Link](sum);
[Link](key, result);
}
}

4. classe Principale
Créer une la classe qui permettra de lancer le job
package [Link];

import [Link];

import [Link];
import [Link];
import [Link];

YASSER EL MADANI EL ALAMI 2

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

import [Link];
import [Link];
import [Link];
import
[Link];

public class WordCount {

public static void main(String[] args) throws Exception {

// TODO Auto-generated method stub
Configuration conf = new Configuration();
Job job = [Link](conf, "word count");

// classe principale
[Link]([Link]);

// classe qui fait le map

[Link]([Link]);

// classe qui fait le shuffling et le reduce

[Link]([Link]);
[Link]([Link]);

// spécifier le fichier d'entrée

[Link](job, new Path(args[0]));

// spécifier le fichier contenant le résultat

[Link](job, new
Path(args[1]));
[Link]([Link](true) ? 0 : 1);
}
}
 Créer un fichier jar que vous allez nommer [Link]
 Copier le jar créé vers le dossier de partage /hadoop_project
 sur l’invité de commande shell de votre container lancer la commande

5. MapReduce avec python

.L’objectif est d’implémenter le fameux exemple wordcount à base de mapreduce en python et
de l’utilitaire hadoop streaming. pour ce faire :

YASSER EL MADANI EL ALAMI 3

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

 Écrire le mapper qui implémente la logique map. Il lira les données de STDIN et
divisera les lignes en mots, et générera une sortie de chaque mot avec une occurrence
égale à 1

#!/usr/bin/env python
import sys
# input comes from standard input STDIN
for line in [Link]:
line = [Link]() #remove leading and trailing whitespaces
words = [Link]() #split the line into words and returns as a list
for word in words:
#write the results to standard output STDOUT

print'%s\t%s' % (word,1) #print the results

 Vous pouvez tester le [Link] sur votre machine

cat [Link] | python [Link]

 Écrire le fichier [Link] qui implémente la logique reduce. Il lira la sortie de

[Link] à partir de l’entrée standard et agrégera l'occurrence de chaque mot et
écrira la sortie finale sur STDOUT

#!/usr/bin/env python
from operator import itemgetter
import sys

current_word = None
current_count = 0
word = None

for line in [Link]:

line = [Link]() # remove leading and trailing whitespace
# splitting the data on the basis of tab provided in [Link]
word, count = [Link]('\t', 1)
# convert count (currently a string) to int
try:
count = int(count)
except ValueError:# ignore/discard this line if count is not a number
continue

# Hadoop sorts map output by key (word) before it is passed to the reducer
if current_word == word:
current_count += count
else:
if current_word:
# write result to STDOUT
print '%s \t %s' % (current_word, current_count)
current_count = count
current_word = word

# output the last word

YASSER EL MADANI EL ALAMI 4

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

if current_word == word:
print '%s\t%s' % (current_word, current_count)

 Vérifier si le reducer fonctionne correctement

cat [Link] | python [Link] | sort -k1,1 | python [Link]

 pour exécuter le [Link] et [Link],
1. ouvrir le terminal du container master

2. localiser le fichier JAR de l’utilitaire hadoop streaming.

find / -name 'hadoop-streaming*.jar'

Le chemin devrait ressembler à PATH/[Link]

/opt/hadoop-3.2.1/share/hadoop/tools/lib/[Link]

3. finalement exécuter le programme map/reduce avec la commande suivante

hadoop jar /opt/hadoop-3.2.1/share/hadoop/tools/lib/hadoop-streaming-
[Link] \
-file chemin/[Link] -mapper [Link] \
-file chemin/[Link] -reducer [Link] \
-input chemin/input -output chemin/output
3. sortir du bash hadoop-master
4. arrêter les containers

YASSER EL MADANI EL ALAMI 5

Vous aimerez peut-être aussi

Hadoop Config Suite Et Fin
Pas encore d'évaluation
Hadoop Config Suite Et Fin
4 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
TP3 2021
Pas encore d'évaluation
TP3 2021
5 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
TP1 MR - Initiation
Pas encore d'évaluation
TP1 MR - Initiation
4 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
TP2 Mapreduce
Pas encore d'évaluation
TP2 Mapreduce
12 pages
Chap 5
Pas encore d'évaluation
Chap 5
28 pages
Hadoop MP Industrie 4
Pas encore d'évaluation
Hadoop MP Industrie 4
18 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Atelier 2 Map Reduce
Pas encore d'évaluation
Atelier 2 Map Reduce
4 pages
MAPREDUCE
Pas encore d'évaluation
MAPREDUCE
5 pages
TP2 - Hadoop MapReduce 2023
Pas encore d'évaluation
TP2 - Hadoop MapReduce 2023
11 pages
Compte Rendu TP 1 Big Data PDF Free
Pas encore d'évaluation
Compte Rendu TP 1 Big Data PDF Free
6 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Hdfs Mapreduce
Pas encore d'évaluation
Hdfs Mapreduce
43 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
CBD TP
Pas encore d'évaluation
CBD TP
6 pages
Travaux Pratique N 1 - 3
Pas encore d'évaluation
Travaux Pratique N 1 - 3
4 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
Examen Big Data
Pas encore d'évaluation
Examen Big Data
3 pages
Atelier 5 Word Count Avec MapReduce
Pas encore d'évaluation
Atelier 5 Word Count Avec MapReduce
22 pages
TP3 Map Reduce
Pas encore d'évaluation
TP3 Map Reduce
25 pages
Python MapReduce pour Big Data
Pas encore d'évaluation
Python MapReduce pour Big Data
3 pages
Diapo3 Big Data
Pas encore d'évaluation
Diapo3 Big Data
37 pages
TP Bigdata ModouFall
Pas encore d'évaluation
TP Bigdata ModouFall
10 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
CBG Cours1
Pas encore d'évaluation
CBG Cours1
36 pages
TP BigData 03
Pas encore d'évaluation
TP BigData 03
4 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
Atelier3 Map Reduce Sur La Plate Forme Cloudera
Pas encore d'évaluation
Atelier3 Map Reduce Sur La Plate Forme Cloudera
9 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Chap4 Mapreduce
Pas encore d'évaluation
Chap4 Mapreduce
35 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
Pas encore d'évaluation
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
3 pages
Abderrahman Eladlani - TPs - Hadoop
Pas encore d'évaluation
Abderrahman Eladlani - TPs - Hadoop
1 page
LCD m2 Fiil tp06
Pas encore d'évaluation
LCD m2 Fiil tp06
2 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
100% (1)
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
9 pages
TP Hadoop: Déploiement et MapReduce
Pas encore d'évaluation
TP Hadoop: Déploiement et MapReduce
10 pages
Bigdata3 - MR
Pas encore d'évaluation
Bigdata3 - MR
34 pages
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
Pas encore d'évaluation
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
6 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
Hadoop TP MSBG
Pas encore d'évaluation
Hadoop TP MSBG
7 pages
Slides Big Data PDF
Pas encore d'évaluation
Slides Big Data PDF
45 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
Etape Mapreduce
Pas encore d'évaluation
Etape Mapreduce
6 pages
Emmanuel Jakobowicz - Python Pour Le Data Scientist
100% (13)
Emmanuel Jakobowicz - Python Pour Le Data Scientist
300 pages
SQL - Les Fondamentaux Du Langage (Avec Exercices Et Corrigés)
100% (4)
SQL - Les Fondamentaux Du Langage (Avec Exercices Et Corrigés)
303 pages
Eni Apprendre La Programmation Orientee Objet Avec Le Langage Python
100% (4)
Eni Apprendre La Programmation Orientee Objet Avec Le Langage Python
261 pages
Programmer Pour Les Nuls 3e Edition Mai 2017
100% (5)
Programmer Pour Les Nuls 3e Edition Mai 2017
460 pages
Hacking - Guide Pratique Des Te - Peter KIM
100% (10)
Hacking - Guide Pratique Des Te - Peter KIM
409 pages
Wiley Python Pour La Data Science
100% (4)
Wiley Python Pour La Data Science
387 pages
Guide Pratique de Kubernetes - Lart de Construire Des Conteneurs Dapplications - Collection OReilly (Sébastian Goasguen, Michael Hausenblas) @le Chat
Pas encore d'évaluation
Guide Pratique de Kubernetes - Lart de Construire Des Conteneurs Dapplications - Collection OReilly (Sébastian Goasguen, Michael Hausenblas) @le Chat
388 pages
Cours Python Complet
90% (10)
Cours Python Complet
150 pages
Docker
100% (6)
Docker
320 pages
Guide Pratique: Débuter avec Python
100% (9)
Guide Pratique: Débuter avec Python
212 pages
Cours Exercices Python
100% (2)
Cours Exercices Python
170 pages
Programmation Avec Node Js Express Js Et Mongodb
100% (1)
Programmation Avec Node Js Express Js Et Mongodb
608 pages
Eni Algorithmique Technique de Programmation en Python 2ed... Wawacity - Tokyo
100% (6)
Eni Algorithmique Technique de Programmation en Python 2ed... Wawacity - Tokyo
304 pages
Cybersécurité Un Ouvrage Unique Pour Les Managers (Romain Hennion, Anissa Makhlouf) (Z-Library)
100% (7)
Cybersécurité Un Ouvrage Unique Pour Les Managers (Romain Hennion, Anissa Makhlouf) (Z-Library)
461 pages
Apprendre Le ML en Une Semaine PDF
94% (17)
Apprendre Le ML en Une Semaine PDF
100 pages
Activités Python pour SNT Seconde
100% (5)
Activités Python pour SNT Seconde
52 pages
Comprendre les réseaux TCP/IP facilement
100% (5)
Comprendre les réseaux TCP/IP facilement
322 pages
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
100% (5)
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
174 pages
Git GitHub - Les Premiers Pas (David Hockley)
Pas encore d'évaluation
Git GitHub - Les Premiers Pas (David Hockley)
66 pages
Formation Pratique sur Linux et Open Source
100% (2)
Formation Pratique sur Linux et Open Source
505 pages
Programmer en Samusant Avec Python Pour Les Nuls, Mégapoche, 3e
100% (10)
Programmer en Samusant Avec Python Pour Les Nuls, Mégapoche, 3e
548 pages
Hacking, Securite Et Tests D'intrusion Avec Metasploit
94% (17)
Hacking, Securite Et Tests D'intrusion Avec Metasploit
716 pages
Cours - Docker
100% (2)
Cours - Docker
97 pages
Intelligence Artificielle: Pour Les Développeurs
100% (3)
Intelligence Artificielle: Pour Les Développeurs
512 pages
Apprendre À Programmer en C Pour Les Nuls Grand Format, 2e Édition
100% (9)
Apprendre À Programmer en C Pour Les Nuls Grand Format, 2e Édition
875 pages
Exercices Corrigés Python
90% (10)
Exercices Corrigés Python
65 pages
Eni Reseaux Informatiques 6ed
100% (3)
Eni Reseaux Informatiques 6ed
603 pages
Kubernetes Maîtrisez Lorchestrateur Des Infrastructures Du Futur - Kelsey Hightower - Brendan Burns Et
100% (2)
Kubernetes Maîtrisez Lorchestrateur Des Infrastructures Du Futur - Kelsey Hightower - Brendan Burns Et
282 pages
Cours Complet PHP Et MySQL 2020 PDF
100% (11)
Cours Complet PHP Et MySQL 2020 PDF
686 pages
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
100% (4)
Big Data Et Machine Learning Manuel Du Data Scientist by Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
237 pages
La Programmation en Assembleur
Pas encore d'évaluation
La Programmation en Assembleur
27 pages
Kamel Ibn Aziz Derouiche
Pas encore d'évaluation
Kamel Ibn Aziz Derouiche
20 pages
Exercices C : Tableaux et Pointeurs
Pas encore d'évaluation
Exercices C : Tableaux et Pointeurs
3 pages
Guide D'étude - Structures Alternatives en C
Pas encore d'évaluation
Guide D'étude - Structures Alternatives en C
9 pages
Adap
Pas encore d'évaluation
Adap
53 pages
Introduction à la Programmation de Jeux
Pas encore d'évaluation
Introduction à la Programmation de Jeux
73 pages
Concurrence Et Les Mots-Clés Async Et Await - FastAPI
Pas encore d'évaluation
Concurrence Et Les Mots-Clés Async Et Await - FastAPI
19 pages
Activité D'apprentissage: Escription de L Activite
Pas encore d'évaluation
Activité D'apprentissage: Escription de L Activite
2 pages
Vie d'une application Android - S3
100% (1)
Vie d'une application Android - S3
57 pages
Installation Apache Hadoop et MapReduce
Pas encore d'évaluation
Installation Apache Hadoop et MapReduce
20 pages
Test 2023-2024 Processus
Pas encore d'évaluation
Test 2023-2024 Processus
2 pages
Slides Cours3
Pas encore d'évaluation
Slides Cours3
24 pages
6-Tuples Dictionnaires Et Chaines de Caractères Python Informatique
Pas encore d'évaluation
6-Tuples Dictionnaires Et Chaines de Caractères Python Informatique
33 pages
PFE SUCCESS Body 231009 140857
Pas encore d'évaluation
PFE SUCCESS Body 231009 140857
53 pages
Epreuve Programmation CPP
Pas encore d'évaluation
Epreuve Programmation CPP
2 pages
Bases de Données Avancées
Pas encore d'évaluation
Bases de Données Avancées
3 pages
Travaux Pratiques - Bases de La Programmation
Pas encore d'évaluation
Travaux Pratiques - Bases de La Programmation
53 pages
Cours Informtique Pour La Biologie
Pas encore d'évaluation
Cours Informtique Pour La Biologie
63 pages
Listes Chaînées en Algorithmique C
Pas encore d'évaluation
Listes Chaînées en Algorithmique C
102 pages
Cour Et Exercices+Corrigés. VHDL
33% (3)
Cour Et Exercices+Corrigés. VHDL
18 pages
Examen labVIEW : Boucles et Registres
100% (1)
Examen labVIEW : Boucles et Registres
6 pages
MySql Est Un Logiciel de Gestion de Base de Données
Pas encore d'évaluation
MySql Est Un Logiciel de Gestion de Base de Données
46 pages
Tutoriel Code::Blocks pour Débutants
Pas encore d'évaluation
Tutoriel Code::Blocks pour Débutants
6 pages
Tuto 0-1 - Prise en Main de Jupyter
Pas encore d'évaluation
Tuto 0-1 - Prise en Main de Jupyter
12 pages
TP JS
Pas encore d'évaluation
TP JS
1 page
Algorithme Python Part1
Pas encore d'évaluation
Algorithme Python Part1
12 pages
Cours et Exercices sur Transact-SQL
80% (20)
Cours et Exercices sur Transact-SQL
36 pages
Automates
100% (3)
Automates
36 pages
React Module Resume
Pas encore d'évaluation
React Module Resume
3 pages
C++ pour Licence 2: Programmation et POO
Pas encore d'évaluation
C++ pour Licence 2: Programmation et POO
3 pages