0% ont trouvé ce document utile (0 vote)
64 vues11 pages

TP1 Big Data

Rt

Transféré par

dojugoprod8
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
64 vues11 pages

TP1 Big Data

Rt

Transféré par

dojugoprod8
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

TP1 - Le traitement Batch avec Hadoop

HDFS et Map Reduce

PRESENTÉ PAR

Dominique Junior GOMIS


&
Mouhamadou Moustapha MBENGUE

1. Télécharger l'image docker uploadée sur dockerhub:


2. Créer les trois contenaires à partir de l'image téléchargée. Pour
cela:

2.1. Créer un réseau qui permettra de relier les trois


contenaires:

2.2. Créer et lancer les trois contenaires (les instructions -p


permettent de faire un mapping entre les ports de la machine
hôte et ceux du contenaire):

3. Entrer dans le contenaire master pour commencer à l'utiliser.

./[Link]
Premiers pas avec hadoop
 Créer un répertoire dans HDFS, appelé input.

 Charger le fichier purchases dans le répertoire input que vous avez


créé :
 Pour afficher le contenu du répertoire input, la commande est :

 Pour a􀂨cher les dernières lignes du fichier purchases :


Interface web pour Hadoop
- [Link]

- [Link]
Map Reduce

Tester Map Reduce en local

 Créer un répertoire input sous le répertoire resources de votre


projet.
 Créer un chier de test: [Link] dans lequel vous insèrerez les deux
lignes:

 Créer une configuration de type Application (Run->Edit


Configurations...->+->Application).
 Définir comme Main Class: [Link], et comme
Program
Arguments: src/main/resources/input/[Link] src/main/resources/output
 Lancer le programme. Un répertoire output sera créé dans le
répertoire
ressources, contenant notamment un chier part-r-00000, dont le
contenu devrait être le suivant:

Lancer Map Reduce sur le cluster

 Créer une configuration Maven avec la ligne de commande:


 Lancer la confguration. Un fchier [Link] sera créé dans le
répertoire target du projet.

NB : j’ai eu projet_maven-[Link] car j’ai nommé le projet


projet_maven.
 Ouvrir le terminal sur le répertoire du projet. Cela peut être fait avec
IntelliJ en ouvrant la vue Terminal située en bas à gauche de la
fenêtre
principale.

 Taper la commande suivante:


La commande docker cp target/projet_maven-[Link]
hadoop-master:/root/projet_maven-[Link] s’est bien passée.

 Revenir au shell du contenaire master, et lancer le job map reduce


avec cette
commande:

Lancement du job Map Reduce


En affichant les dernières lignes du fichier généré output/part-r-00000, on
obtient l'affichage suivant :
Il vous est possible de monitorer vos Jobs Map Reduce, en allant à la page:
[Link] . Vous trouverez votre Job dans la liste des applications
comme suit:

Il est également possible de voir le comportement des noeuds esclaves,


en
allant à l'adresse: [Link] pour slave1, et
[Link] pour slave2. On obtient ce qui suit:

Vous aimerez peut-être aussi