0% ont trouvé ce document utile (0 vote)

46 vues4 pages

Programme WordCount avec MapReduce

Le document présente un travail pratique sur l'implémentation d'un programme de comptage de mots utilisant MapReduce sous Hadoop. Il décrit les étapes pour créer les classes Mapper et Reducer, configurer et exécuter le job, ainsi que les questions de réflexion et des extensions possibles. Les prérequis incluent une installation de Hadoop, un accès au HDFS et des connaissances en Java.

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues4 pages

Programme WordCount avec MapReduce

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Travaux pratiques (TP – 03)

Programme WordCount avec MapReduce

Objectifs

▪ Comprendre et implémenter un programme de comptage de mots en utilisant le modèle

MapReduce sous Hadoop.

Prérequis :

▪ Hadoop installé et configuré.

▪ Accès au HDFS.
▪ Familiarité avec Java (ou le langage utilisé pour implémenter MapReduce).

Étapes du TP :

1. Présentation du TP

Le programme WordCount est un classique pour commencer avec Hadoop MapReduce. Le but est de
lire un fichier texte, de compter le nombre d'occurrences de chaque mot, et d'afficher le résultat.

2. Création des Classes Map et Reduce

a. Classe Map

La classe Map va lire chaque ligne du fichier, découper la ligne en mots, puis émettre un couple clé-
valeur pour chaque mot, où la clé est le mot et la valeur est 1.

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException {
String line = value.toString();
String[] words = line.split("\\s+");
for (String w : words) {
word.set(w);
context.write(word, one);
}
}
}
Explications :

• LongWritable : représente le décalage de la ligne dans le fichier d'entrée.

• Text : représente le texte de la ligne.

• IntWritable : représente la valeur 1 pour chaque mot.

b. Classe Reduce

La classe Reduce va recevoir les couples clé-valeur émis par le Mapper, regrouper toutes les
occurrences d’un mot et calculer le total.

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException,
InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
}

Explications :

• La méthode reduce additionne toutes les valeurs associées à une clé (mot) pour obtenir le
nombre total d'occurrences de chaque mot.

3. Configuration et Lancement du Job MapReduce

Classe WordCount

Cette classe configure le Job MapReduce et lance le traitement.

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");

job.setJarByClass(WordCount.class);
job.setMapperClass(WordCountMapper.class);
job.setCombinerClass(WordCountReducer.class); // Optionnel, pour optimiser
job.setReducerClass(WordCountReducer.class);

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

4. Compilation et Exécution du Programme

Compilation : Compilez les fichiers Java en un fichier .jar (par exemple, WordCount.jar).

javac -classpath `hadoop classpath` -d . WordCountMapper.java WordCountReducer.java

WordCount.java
jar -cvf WordCount.jar -C . .

Téléchargement du fichier d'entrée dans HDFS : Téléchargez le fichier que vous souhaitez analyser
dans le HDFS.

hadoop fs -mkdir -p /user/nom_utilisateur/input

hadoop fs -put votre_fichier.txt /user/nom_utilisateur/input

Exécution du Job MapReduce : Exécutez le programme WordCount avec Hadoop

hadoop jar WordCount.jar WordCount /user/nom_utilisateur/input /user/nom_utilisateur/output

Visualisation des Résultats : Affichez les résultats du job.

hadoop fs -cat /user/nom_utilisateur/output/part-r-00000

5. Questions :

1. Pourquoi utilise-t-on MapReduce pour le traitement de gros volumes de données ?

2. Comment l'opération de shuffle (mélange) contribue-t-elle à l'efficacité du traitement

distribué ?

3. Pourquoi l'utilisation d'un combiner peut-elle améliorer les performances d'un job
MapReduce ?
6. Extension

1. Modifiez le programme pour qu'il ignore les mots courts (moins de trois lettres).

2. Ajoutez un filtre pour ne compter que les mots apparaissant plus de deux fois.

Vous aimerez peut-être aussi

Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
Pas encore d'évaluation
Tp4 Hadoop-Programmation Map-Reduce: Partie 1: Wordcount en Java
3 pages
TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
Atelier3 Map Reduce Sur La Plate Forme Cloudera
Pas encore d'évaluation
Atelier3 Map Reduce Sur La Plate Forme Cloudera
9 pages
TP2 - Hadoop MapReduce 2023
Pas encore d'évaluation
TP2 - Hadoop MapReduce 2023
11 pages
Atelier 2 Map Reduce
Pas encore d'évaluation
Atelier 2 Map Reduce
4 pages
TP Hadoop: MapReduce et YARN en Java
100% (1)
TP Hadoop: MapReduce et YARN en Java
5 pages
TP3 Map Reduce
Pas encore d'évaluation
TP3 Map Reduce
25 pages
Atelier 5 Word Count Avec MapReduce
Pas encore d'évaluation
Atelier 5 Word Count Avec MapReduce
22 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Introduction au modèle MapReduce
Pas encore d'évaluation
Introduction au modèle MapReduce
5 pages
Mapper WordCount en Scala
Pas encore d'évaluation
Mapper WordCount en Scala
3 pages
Driver WordCount en Java pour Hadoop
100% (1)
Driver WordCount en Java pour Hadoop
3 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
TP2 MapReduce
Pas encore d'évaluation
TP2 MapReduce
7 pages
Etape Mapreduce
Pas encore d'évaluation
Etape Mapreduce
6 pages
Lab 3
Pas encore d'évaluation
Lab 3
3 pages
LCD m2 Fiil tp06
Pas encore d'évaluation
LCD m2 Fiil tp06
2 pages
Guide Hadoop MapReduce WordCount
Pas encore d'évaluation
Guide Hadoop MapReduce WordCount
4 pages
Compte de mots avec Hadoop et Java
Pas encore d'évaluation
Compte de mots avec Hadoop et Java
5 pages
TP Hadoop: MapReduce et Python
Pas encore d'évaluation
TP Hadoop: MapReduce et Python
5 pages
Abderrahman Eladlani - TPs - Hadoop
Pas encore d'évaluation
Abderrahman Eladlani - TPs - Hadoop
1 page
Introduction à Map-Reduce et TP Hadoop
Pas encore d'évaluation
Introduction à Map-Reduce et TP Hadoop
7 pages
Travaux Pratique N 1 - 3
Pas encore d'évaluation
Travaux Pratique N 1 - 3
4 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Hdfs Mapreduce
Pas encore d'évaluation
Hdfs Mapreduce
43 pages
Programmation Hadoop : Guide du Driver Java
100% (1)
Programmation Hadoop : Guide du Driver Java
11 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
TP1 MR - Initiation
Pas encore d'évaluation
TP1 MR - Initiation
4 pages
TP2 Mapreduce
Pas encore d'évaluation
TP2 Mapreduce
12 pages
Atelier2 Mapreduce
Pas encore d'évaluation
Atelier2 Mapreduce
3 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Exécution de MapReduce avec Hadoop
Pas encore d'évaluation
Exécution de MapReduce avec Hadoop
5 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
TP2 MapReduce 02 2024
Pas encore d'évaluation
TP2 MapReduce 02 2024
8 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Compte Rendu TP 1 Big Data PDF Free
Pas encore d'évaluation
Compte Rendu TP 1 Big Data PDF Free
6 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
6 pages
Introduction au Big Data et MapReduce
Pas encore d'évaluation
Introduction au Big Data et MapReduce
47 pages
TP ComplementaireSpark
Pas encore d'évaluation
TP ComplementaireSpark
3 pages
Hadoop MP Industrie 4
Pas encore d'évaluation
Hadoop MP Industrie 4
18 pages
MapReduce avec Python pour WordCount
Pas encore d'évaluation
MapReduce avec Python pour WordCount
12 pages
Introduction à Hadoop MapReduce
Pas encore d'évaluation
Introduction à Hadoop MapReduce
28 pages
Analyse de MapReduce, Cassandra et Spark
Pas encore d'évaluation
Analyse de MapReduce, Cassandra et Spark
4 pages
Lab 3
Pas encore d'évaluation
Lab 3
15 pages
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
Pas encore d'évaluation
TP3 Progrmmation Hadoop - MapReduce Sous Cloudera
6 pages
Introduction à MapReduce avec Hadoop
Pas encore d'évaluation
Introduction à MapReduce avec Hadoop
16 pages
BigDATA M1 GSI Corrigé - Type
100% (2)
BigDATA M1 GSI Corrigé - Type
3 pages
Cours 3-Pages-2
Pas encore d'évaluation
Cours 3-Pages-2
18 pages
Introduction à MapReduce et Big Data
Pas encore d'évaluation
Introduction à MapReduce et Big Data
65 pages
tp5MOUJANE BASMA
Pas encore d'évaluation
tp5MOUJANE BASMA
9 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Diapo3 Big Data
Pas encore d'évaluation
Diapo3 Big Data
37 pages
Mbds Big Data Hadoop 2019 2020 Cours 2
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 Cours 2
45 pages
CH 4 MapReduce
Pas encore d'évaluation
CH 4 MapReduce
18 pages
TD Big Data: Installation Hadoop & MapReduce
Pas encore d'évaluation
TD Big Data: Installation Hadoop & MapReduce
6 pages
Aide Ébauche
Pas encore d'évaluation
Aide Ébauche
3 pages
Exercices de mathématiques au lycée 2008-2009
Pas encore d'évaluation
Exercices de mathématiques au lycée 2008-2009
2 pages
Entrée Bouton - Résistance Pull-Up, Pull-Down Et Déparasitage
Pas encore d'évaluation
Entrée Bouton - Résistance Pull-Up, Pull-Down Et Déparasitage
10 pages
Devoir Techniques de Promotion Des Ventes ASSOMO Alain
Pas encore d'évaluation
Devoir Techniques de Promotion Des Ventes ASSOMO Alain
6 pages
Design Humain 1
100% (2)
Design Humain 1
12 pages
Tutoriel BPMN
Pas encore d'évaluation
Tutoriel BPMN
63 pages
1ere S Livres 2023-2024
Pas encore d'évaluation
1ere S Livres 2023-2024
1 page
Test de Connaissance en Developpement Web Et Mobile
Pas encore d'évaluation
Test de Connaissance en Developpement Web Et Mobile
4 pages
Fiabilité des systèmes électriques
100% (4)
Fiabilité des systèmes électriques
11 pages
Cours FSM v2.0.1 PDF
Pas encore d'évaluation
Cours FSM v2.0.1 PDF
22 pages
Psychologie 1 2
Pas encore d'évaluation
Psychologie 1 2
5 pages
Livret Partitions - 2023.01.29 - TO4
100% (1)
Livret Partitions - 2023.01.29 - TO4
17 pages
Examen Théorique Chef de Chantier 2010
Pas encore d'évaluation
Examen Théorique Chef de Chantier 2010
9 pages
Kluebersynth UH1 6-Fr Gesamt
Pas encore d'évaluation
Kluebersynth UH1 6-Fr Gesamt
8 pages
TDR Projet Alphabetisation Abongoua
100% (1)
TDR Projet Alphabetisation Abongoua
2 pages
SVE Sve/Plus
Pas encore d'évaluation
SVE Sve/Plus
24 pages
Aime Cesaire - Discours Sur Le Colonialisme
100% (4)
Aime Cesaire - Discours Sur Le Colonialisme
42 pages
VDO SIEMENS Engine Actuators
Pas encore d'évaluation
VDO SIEMENS Engine Actuators
67 pages
Facteur de Puissance - Wikipédia
Pas encore d'évaluation
Facteur de Puissance - Wikipédia
11 pages
Comment Remplir Mon Carnet de Bord-Nouvelle Version
Pas encore d'évaluation
Comment Remplir Mon Carnet de Bord-Nouvelle Version
5 pages
2 Examens Régionaux - Français
Pas encore d'évaluation
2 Examens Régionaux - Français
2 pages
Master 2 SIC
Pas encore d'évaluation
Master 2 SIC
93 pages
Dieu, Les Mathématiques, La Folie (Fouad Laroui)
100% (4)
Dieu, Les Mathématiques, La Folie (Fouad Laroui)
243 pages
Capacite de Tube
Pas encore d'évaluation
Capacite de Tube
187 pages
Cas Clinique 5eme.
Pas encore d'évaluation
Cas Clinique 5eme.
34 pages
Formulaire de saisie texte sur Excel
Pas encore d'évaluation
Formulaire de saisie texte sur Excel
7 pages
Projet de conception de ponts à poutres
Pas encore d'évaluation
Projet de conception de ponts à poutres
21 pages
Dégauchisseuse : Fonctionnement et Sécurité
Pas encore d'évaluation
Dégauchisseuse : Fonctionnement et Sécurité
7 pages
Lecture Transversale - Il Était Une Fois - Trace Écrite.
Pas encore d'évaluation
Lecture Transversale - Il Était Une Fois - Trace Écrite.
2 pages
Séminaire sur les Pompes Centrifuges
100% (1)
Séminaire sur les Pompes Centrifuges
41 pages