TP 5 : MapReduce – WordCount et Total des Ventes par Ma
gasin
Réalisé par : Encadré par :
Moujane Basma NAJAH SAID
1. Introduction
Ce TP vise à :
Comprendre le fonctionnement de l’architecture MapReduce.
Mettre en œuvre un programme simple de type WordCount, considéré comme l’« Hello
World » des systèmes distribués.
Déployer un job MapReduce localement, puis sur un cluster Hadoop.
Implémenter une application pratique de MapReduce pour calculer le total des ventes par
magasin à partir d’un fichier de transactions.
2. Environnement de travail
vs code
Java: JDK 1.8
Hadoop: Version 2.7.2
Cluster: Docker avec 1 master et 2 slaves
3. Implémentation du WordCount
3.1 Code MapReduce( que vous avez donné)
4. Exécution en local
4.1 Préparation des données
Fichier d'entrée file.txt:
4.2 Résultats obtenus
5. Exécution sur le cluster Hadoop
5.1. Premier lancement de Docker
Assurez-vous que votre environnement Docker est démarré :
5.2. Génération du fichier JAR avec Maven
5.3. Copie du JAR vers le conteneur Hadoop
Copiez le fichier JAR depuis votre machine locale vers le conteneur hadoop-master :
5.4. Exécution du job sur le cluster
Connectez-vous au conteneur hadoop-master et lancez le job :
5.5. Vérification des résultats
Consulter les fichiers de sortie :
6. Application: Ventes par magasin
6.1 code
MAPPER:
REDUSER:
CLASSE POUR L4EXECUTION:
Copie du fichier purchases.txt vers HDFS et vérification du contenu du répertoire /new_input"
lancer le job sur le cluster
6.2 Résultats (hdfs dsf -cat /new_output/part-r-00000)
Conclusion
Ce TP a permis de découvrir et d’appliquer le modèle de programmation MapReduce à travers deux
cas :
Un exemple simple de WordCount, pour comprendre le principe de base.
Une application réelle de traitement de données de vente, utile dans un contexte
professionnel.
Nous avons également appris à tester nos jobs localement avant de les exécuter sur un cluster
Hadoop distribué, tout en explorant les outils de monitoring des jobs et des nœuds.