TP1 - Le traitement Batch avec Hadoop
HDFS et Map Reduce
PRESENTÉ PAR
Dominique Junior GOMIS
&
Mouhamadou Moustapha MBENGUE
1. Télécharger l'image docker uploadée sur dockerhub:
2. Créer les trois contenaires à partir de l'image téléchargée. Pour
cela:
2.1. Créer un réseau qui permettra de relier les trois
contenaires:
2.2. Créer et lancer les trois contenaires (les instructions -p
permettent de faire un mapping entre les ports de la machine
hôte et ceux du contenaire):
3. Entrer dans le contenaire master pour commencer à l'utiliser.
./[Link]
Premiers pas avec hadoop
Créer un répertoire dans HDFS, appelé input.
Charger le fichier purchases dans le répertoire input que vous avez
créé :
Pour afficher le contenu du répertoire input, la commande est :
Pour acher les dernières lignes du fichier purchases :
Interface web pour Hadoop
- [Link]
- [Link]
Map Reduce
Tester Map Reduce en local
Créer un répertoire input sous le répertoire resources de votre
projet.
Créer un chier de test: [Link] dans lequel vous insèrerez les deux
lignes:
Créer une configuration de type Application (Run->Edit
Configurations...->+->Application).
Définir comme Main Class: [Link], et comme
Program
Arguments: src/main/resources/input/[Link] src/main/resources/output
Lancer le programme. Un répertoire output sera créé dans le
répertoire
ressources, contenant notamment un chier part-r-00000, dont le
contenu devrait être le suivant:
Lancer Map Reduce sur le cluster
Créer une configuration Maven avec la ligne de commande:
Lancer la confguration. Un fchier [Link] sera créé dans le
répertoire target du projet.
NB : j’ai eu projet_maven-[Link] car j’ai nommé le projet
projet_maven.
Ouvrir le terminal sur le répertoire du projet. Cela peut être fait avec
IntelliJ en ouvrant la vue Terminal située en bas à gauche de la
fenêtre
principale.
Taper la commande suivante:
La commande docker cp target/projet_maven-[Link]
hadoop-master:/root/projet_maven-[Link] s’est bien passée.
Revenir au shell du contenaire master, et lancer le job map reduce
avec cette
commande:
Lancement du job Map Reduce
En affichant les dernières lignes du fichier généré output/part-r-00000, on
obtient l'affichage suivant :
Il vous est possible de monitorer vos Jobs Map Reduce, en allant à la page:
[Link] . Vous trouverez votre Job dans la liste des applications
comme suit:
Il est également possible de voir le comportement des noeuds esclaves,
en
allant à l'adresse: [Link] pour slave1, et
[Link] pour slave2. On obtient ce qui suit: