TP Hadoop: MapReduce et YARN en Java

Ce TP présente le développement d'une application MapReduce en Java pour compter les mots dans un document texte. Les étapes incluent la création d'un projet Maven, l'implémentation d'un Mapper et d'un Reducer, et l'exécution de l'application sur un cluster Hadoop simulé avec Docker.

Transféré par

Raja Bs

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

579 vues5 pages

TP Hadoop: MapReduce et YARN en Java

Transféré par

Raja Bs

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ISSAT Mateur A.U.

2021-2022 2ème MP SSR

TP 2 Big Data
Hadoop, MapReduce et YARN

Objectif :
Ce TP constitue un premier pas vers l’utilisation de YARN pour exécuter une application
Map/Reduce.
Description :
Au terme de ce TP, vous serez capables :
 de développer une chaîne de traitement Hadoop/MapReduce (un Mapper et un Reducer) en
java,
 de tester en local sur votre propre machine si la chaîne de traitement est conforme à vos
attentes,
 de déployer et exécuter votre chaîne de traitement MapReduce sur un Docker Container
simulant un cluster Hadoop,
 et de ramener vos résultats d’analyse en local sur votre machine.
Environnement logiciel :

 Apache Hadoop version 3.2.1 sur Docker et 3.3.1 directement sur votre machine
 IDE : Eclipse
 JDK : 1.8
 Docker [[Link]

1ère partie : Développer une chaîne de traitement Hadoop/MapReduce avec java

Objectif :
Nous allons tester un programme MapReduce grâce à un exemple très simple, le WordCount,
l'équivalent du HelloWorld pour les applications de traitement de données. Le Wordcount permet de
calculer le nombre de mots dans un fichier donné, en décomposant le calcul en deux étapes:
 L'étape de Mapping, qui permet de découper le texte en mots et de délivrer en sortie un flux
textuel, où chaque ligne contient le mot trouvé, suivi de la valeur 1 (pour dire que le mot a été
trouvé une fois)
 L'étape de Reducing, qui permet de faire la somme des 1 pour chaque mot, pour trouver le
nombre total d'occurrences de ce mot dans le texte.
1ère étape : Commençons par créer un projet Maven dans IntelliJ IDEA. Nous utiliserons dans notre
cas JDK 1.8.
Définir les valeurs suivantes pour votre projet:
 GroupId: [Link]
 ArtifactId: wordcount
 Version: 1

1
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR

2ème étape : ajoutez les dépendances suivantes

<dependencies>
<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.3.1</version>
</dependency>

<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>[Link]</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>3.3.1</version>
</dependency>
</dependencies>
3ème étape : ajoutez un package « [Link].tp2 » sous le répertoire src/main/java
4ème étape : créez une classe « [Link] » dans le package « [Link].tp2 »
package [Link].tp2;

import [Link];
import [Link];
import [Link];

import [Link];
import [Link];

public class WordCountMapper extends Mapper<Object,Text,Text,IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, [Link] context) throws

IOException,InterruptedException {
StringTokenizer itr = new StringTokenizer([Link]());
while ([Link]()) {
[Link]([Link]());
[Link](word, one);
}
}
}
2
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR

5ème étape : créez une classe « [Link] » dans le package « [Link].tp2 »

package [Link].tp2;
import [Link];
import [Link];
import [Link];
import [Link];
public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values){
[Link]("value: "+[Link]());
sum += [Link]();
}
[Link]("--> Sum = "+sum);
[Link](sum);
[Link](key, result);
}
}
6ème étape : créez une classe « [Link] » dans le package « [Link].tp2 »
package [Link].tp2;
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
import [Link];
public class WordCount {
public static void main(String[] args) throws IOException,
InterruptedException, ClassNotFoundException {
Configuration conf = new Configuration();
Job job = [Link](conf, "word count");
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link]([Link]);
[Link](job, new Path(args[0]));
[Link](job, new Path(args[1]));
[Link]([Link](true) ? 0 : 1);
}
}

3
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR

7ème étape : créer le jar et utilisez la ligne de commandes pour le tester sur la version hadoop que vous
avez installée :
 Formatez le système de fichiers : hdfs namenode –format
 Démarrez les démons (NameNode et DataNode) : %HADOOP_HOME%\sbin\[Link]
 Démarrez les démons (NodeManager et RessourceManager) : %HADOOP_HOME%\sbin\start-
[Link]
 Créez les deux dossiers user et user/ « your-username »
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/<votre user_name>

 Créez un dossier input dans HDFS : hdfs dfs -mkdir input

 Placez un fichier [Link] dans le répertoire input créé : hadoop fs -put path\to\[Link] input\
 Exécutez le Map/Reduce Job : hadoop jar path\to\[Link] [Link]
input\[Link] output
 Affichez le contenu du dossier output : hadoop fs –ls output
 Affichez les dernières lignes du ficher part-r-00000 qui est dans le dossier output : hadoop fs -
tail output\part-r-00000
 Téléchargez donc le résultat dans un emplacement de votre choix : hadoop fs -get output/part-r-
00000 C: \
2ème partie : tester avec Docker Hadoop Container
Etape 1 : Installer Docker
Pour déployer le framework Hadoop, nous allons utiliser des containers Docker
[[Link] L'utilisation des containers va garantir la consistance entre les
environnements de développement et permettra de réduire considérablement la complexité de
configuration des machines (dans le cas d'un accès natif) ainsi que la lourdeur d'exécution (si on opte
pour l'utilisation d'une machine virtuelle).
Nous avons pour le déploiement des ressources de ce TP suivi les instructions présentées ici :
([Link]
using-docker-and-docker-compose/)
 Vérifiez l’installation de Docker : dans l’invite de commande (en tant qu’administrateur),
exécutez : docker --version
 Vérifiez que docker-compose est fonctionnelle : docker-compose --version
 Vérifiez que Docker fonctionne correctement : docker ps
 Vérifiez que Git est installé sur votre machine
Etape 2 : la mise en place du container
 Commencez par cloner le dossier contenant le Hadoop Container :
git clone [Link]
 Le répertoire contient un fichier [Link] qui contient la configuration
nécessaire à la création des containers pour les composants de Hadoop (namenode,
datanode etc.). Naviguez jusqu’à le dossier copié et tapez la commande
docker-compose up –d
 A la fin, tapez docker ps pour voir les containers Hadoop en cours d’exécution

4
Houda Benali
ISSAT Mateur A.U. 2021-2022 2ème MP SSR

Etape 3 : Tester la configuration avec un exemple Map/Reduce

 Télécharger une application .jar permettant de calculer le nombre d’occurrences des mots
dans un fichier texte. (par exemple :
[Link]
examples/2.7.1/[Link]
 Copiez le jar dans le dossier /tmp du namenode :
docker cp « your-path »\[Link]
namenode:/tmp/
 Créez un fichier .txt et ajoutez quelques lignes
 Déplacez le fichier dans le namenode : docker cp « yor-path »\[Link]
namenode:/tmp/
 Exécutez le terminal bash : docker exec -it namenode /bin/bash
 Dans le terminal bash, exécutez la commande hdfs dfs -mkdir -p /user/root/input
pour créer le dossier input qui contiendra le fichier à analyser.
 Copiez donc le fichier texte déjà créé dans le dossier input :
hdfs dfs -put [Link] /user/root/input
 Exécutez le Job MapReduce (le fichier jar)
hadoop jar tmp/[Link]
[Link] input output
 Vérifiez la bonne exécution de cette opération en tapant : hdfs dfs -ls
/user/root/output, pour voir le contenu du dossier output
 Vous pouvez aussi listez les dernières lignes du fichier résultat avec la commande :
hadoop fs -tail /user/root/output/part-r-00000

5
Houda Benali

Vous aimerez peut-être aussi

TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP PIG Hadoop
Pas encore d'évaluation
TP PIG Hadoop
3 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
QCM Sur Apache Spark11
Pas encore d'évaluation
QCM Sur Apache Spark11
4 pages
TP Hadoop: Manipulation HDFS CLI & Java
Pas encore d'évaluation
TP Hadoop: Manipulation HDFS CLI & Java
3 pages
MapReduce avec Hadoop et Python
Pas encore d'évaluation
MapReduce avec Hadoop et Python
5 pages
Initiation à Hadoop et MapReduce en L2IRS
100% (1)
Initiation à Hadoop et MapReduce en L2IRS
7 pages
Systèmes Distribués et Big Data 2022
Pas encore d'évaluation
Systèmes Distribués et Big Data 2022
100 pages
Installation Apache Hadoop et MapReduce
Pas encore d'évaluation
Installation Apache Hadoop et MapReduce
20 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
Validation croisée et réglage hyperparamètres
Pas encore d'évaluation
Validation croisée et réglage hyperparamètres
4 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Analyse de Données et Règles d'Association
Pas encore d'évaluation
Analyse de Données et Règles d'Association
11 pages
Fondements de l'environnement Hadoop
Pas encore d'évaluation
Fondements de l'environnement Hadoop
32 pages
QCM et exercices sur Hadoop et MapReduce
Pas encore d'évaluation
QCM et exercices sur Hadoop et MapReduce
3 pages
(Big Data) CHAP3 - MapReduce
Pas encore d'évaluation
(Big Data) CHAP3 - MapReduce
29 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
Cours 03 MapReduce
Pas encore d'évaluation
Cours 03 MapReduce
36 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Installation et configuration de Hadoop
Pas encore d'évaluation
Installation et configuration de Hadoop
11 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
tp1 BigData
Pas encore d'évaluation
tp1 BigData
9 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
65 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
QCM Big Data : Testez vos connaissances
Pas encore d'évaluation
QCM Big Data : Testez vos connaissances
2 pages
Introduction à MapReduce en MongoDB
100% (2)
Introduction à MapReduce en MongoDB
3 pages
Programmation HDFS avec Eclipse
Pas encore d'évaluation
Programmation HDFS avec Eclipse
4 pages
Introduction à HBase et Hadoop
Pas encore d'évaluation
Introduction à HBase et Hadoop
21 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
TP4 HBase: Manipulation et Stockage NOSQL
Pas encore d'évaluation
TP4 HBase: Manipulation et Stockage NOSQL
18 pages
Exam Big Data
Pas encore d'évaluation
Exam Big Data
6 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
DS Big Data2024
Pas encore d'évaluation
DS Big Data2024
4 pages
TP Redis : Gestion des Clés et Valeurs
Pas encore d'évaluation
TP Redis : Gestion des Clés et Valeurs
2 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
QCM sur l'introduction à Hadoop
Pas encore d'évaluation
QCM sur l'introduction à Hadoop
8 pages
Application Réseau MultiClients
100% (1)
Application Réseau MultiClients
7 pages
TP 1 SOA
Pas encore d'évaluation
TP 1 SOA
3 pages
Introduction aux bases de données NoSQL
Pas encore d'évaluation
Introduction aux bases de données NoSQL
20 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
Classification par arbres de décision
Pas encore d'évaluation
Classification par arbres de décision
30 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
16 pages
Exercice HDFS et MapReduce en Big Data
Pas encore d'évaluation
Exercice HDFS et MapReduce en Big Data
2 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
TP N°2 - Exemple Word Count Avec Hadoop
Pas encore d'évaluation
TP N°2 - Exemple Word Count Avec Hadoop
12 pages
Programme WordCount avec MapReduce
Pas encore d'évaluation
Programme WordCount avec MapReduce
4 pages
Systèmes Distribués et Big Data : Concepts Clés
Pas encore d'évaluation
Systèmes Distribués et Big Data : Concepts Clés
47 pages
Protocole TCP : Fonctionnalités et Structure
Pas encore d'évaluation
Protocole TCP : Fonctionnalités et Structure
8 pages
Conception d'une plateforme Web industrielle
Pas encore d'évaluation
Conception d'une plateforme Web industrielle
61 pages
Révision sur la cryptographie symétrique
Pas encore d'évaluation
Révision sur la cryptographie symétrique
2 pages
Stage Pfe Tunisie - Recherche - LinkedIn
Pas encore d'évaluation
Stage Pfe Tunisie - Recherche - LinkedIn
6 pages
Gestion Énergie Bâtiment: Production & Consommation
Pas encore d'évaluation
Gestion Énergie Bâtiment: Production & Consommation
181 pages
1 Big Data Data Science IA
Pas encore d'évaluation
1 Big Data Data Science IA
43 pages
TP S Embarqué
Pas encore d'évaluation
TP S Embarqué
77 pages
Article 1
Pas encore d'évaluation
Article 1
7 pages
Chapitre IV Réalisation de La Poubelle Intelligente
Pas encore d'évaluation
Chapitre IV Réalisation de La Poubelle Intelligente
39 pages
Frankie Ruiz - La Rueda - Piano & Bass
33% (3)
Frankie Ruiz - La Rueda - Piano & Bass
9 pages
Rapport de Stage PFE Asmaa TAJIDI GI
Pas encore d'évaluation
Rapport de Stage PFE Asmaa TAJIDI GI
48 pages
CN Utp TCB
Pas encore d'évaluation
CN Utp TCB
1 page
Comment Hacker Facebook Avec Termux Depuis Votre Android SANS ROOT
Pas encore d'évaluation
Comment Hacker Facebook Avec Termux Depuis Votre Android SANS ROOT
10 pages
Éclairage Public Intelligent Économique
100% (1)
Éclairage Public Intelligent Économique
5 pages
Variateur Unidirectionnel Et Bidirectionnel
Pas encore d'évaluation
Variateur Unidirectionnel Et Bidirectionnel
9 pages
Guide des Hébergements Web
Pas encore d'évaluation
Guide des Hébergements Web
5 pages
Optimisation et Innovation Textile en Usine
Pas encore d'évaluation
Optimisation et Innovation Textile en Usine
6 pages
Application mobile de crise : guide essentiel
Pas encore d'évaluation
Application mobile de crise : guide essentiel
2 pages
Motivation Bourse
Pas encore d'évaluation
Motivation Bourse
1 page
Notice Simplifiée Infusomat Space
100% (1)
Notice Simplifiée Infusomat Space
2 pages
Modulations Angulaires en Télécommunications
Pas encore d'évaluation
Modulations Angulaires en Télécommunications
12 pages
Fiche Technique Compresseur HL2/120
Pas encore d'évaluation
Fiche Technique Compresseur HL2/120
60 pages
Rapport Final GEPSOFT - 102338
Pas encore d'évaluation
Rapport Final GEPSOFT - 102338
16 pages
Sujet 1 PDF
100% (4)
Sujet 1 PDF
2 pages
Téléphones Xiaomi Poco et Redmi 2023
Pas encore d'évaluation
Téléphones Xiaomi Poco et Redmi 2023
5 pages
Aide D'utilisation
Pas encore d'évaluation
Aide D'utilisation
248 pages
Formation en Innovation et Processus
Pas encore d'évaluation
Formation en Innovation et Processus
17 pages
Solaris 10 Vers Solaris 11
100% (1)
Solaris 10 Vers Solaris 11
156 pages
Master - Pro - Hydrogène Vert Vecteur D'énergie - Sétif
Pas encore d'évaluation
Master - Pro - Hydrogène Vert Vecteur D'énergie - Sétif
63 pages
Exolab Maquettage TOIP
100% (1)
Exolab Maquettage TOIP
12 pages
Guide Campagne Digitale 2023
100% (2)
Guide Campagne Digitale 2023
25 pages
Travaux Diriges Sur Le Redressement Non Commande-1
100% (4)
Travaux Diriges Sur Le Redressement Non Commande-1
4 pages
Le Soldat Augmenté : Défis et Éthique
100% (2)
Le Soldat Augmenté : Défis et Éthique
205 pages
Schéma d'intervention CRM
Pas encore d'évaluation
Schéma d'intervention CRM
3 pages