Tp Hadoop
NOM : ZIANE NOM : BERRISSOUL
PRENOM : HICHAM PRENOM : SAAD
1
Table des matières
1-Installation et configuration d'un noeud unique d'Apache Hadoop 3.3.1………………….………….….3
2-Exécution d'un programme Map/Reduce dans un cluster à nœud unique……………………….……..24
3-Configuration d'un cluster multi-noeuds d'Apache Hadoop……………………………………………….…...32
4-Exécution d'un programme Map/Reduce dans un cluster multi-nœuds……………………………..…..47
2
1) Installation et configuration d'un noeud unique d'Apache Hadoop
3.3.1 :
Etape 1 : Création d'un utilisateur hdziane
3
Etape 1-2 : Avoir les fichiers nécessaires pour le Tp
Etape 2 : Mise en place de la clé ssh
Installez le paquet nécessaire pour ssh
4
.
Mettre en place la clé ssh pour son propre compte
5
Copiez la clé publique sur le serveur localhost
Teste de la connexion à localhost
6
Etape 3 : Installation de JAVA 8
Création du répertoire /opt /java.
Extraction de l'archive
7
.
8
9
Utilisation de la commande update-alternatives pour dire au système où java et ses
exécutables sont installés et mise à jour de javac alternatives
Installation de l’éditeur de texte vim
10
.
.
.
Mise en place de manière permanente les variables d'environnement JAVA pour
tous les utilisateurs
Dans le ficher /etc/profile on effectue les changements suivants :
11
Recharger le fichier profile (en tant que root et avec
l’utilisateur hdziane)
Mise en place de manière permanente les variables d'environnement JAVA
Pour cela on édit le fichier .bashrc comme suit :
12
Test de la mise en place des variables d'environnement dans le terminal hadoop
Etape 4 : Installation d'Apache Hadoop 3.3.1
hdziane@hicham:~/Documents$ tar -zxvf hadoop-3.3.1.tar.gz
.
.
.
.
.
13
Création des répertoire de stockage de données de hadoop:
14
Etape 5 : Configuration d'Apache Hadoop 3.3.1
Mise en place des variables d'environnements
On modifie le fichier .bashrc en ajoutant les lignes suivantes à la fin du fichier comme ci-dessous
On recharge le fichier ~/.bashrc en utilisant la fonction source
15
Après on modifie la variable d’environnement JAVA_HOME dans le fichier
/usr/local/hadoop/etc/hadoop/hadoop-env.sh
Création du répertoire des fichiers temporaires de hadoop
Modification des fichiers de configuration de Hadoop
hdziane@hicham:~$ cd /usr/local/hadoop/etc/hadoop/
Après on effectue les changements suivants :
16
Dans le fichier core-site.xml :
17
Dans le fichier hdfs-site.xml:
18
Dans le fichier mapred-site.xml :
19
Dans le fichier yarn-site.xml :
Formatage du Namenode
.
.
20
.
.
Maintenant on démarre le cluster à nœud unique
21
On vérifie si tous les composants du cluster fonctionnent à l’aide de la commande
jps
Accéder aux interfaces graphiques de Hadoop via le navigateur
accéder l’interface du NameNode:
22
Accéder l’interface du ResourceManager :
23
2) Exécution d'un programme Map/Reduce dans un cluster à noeud
unique :
24
Création des répertoires code et org ainsi que l’extraction des fichiers java depuis
le fichier code_java.zip ainsi la compilation des fichiers java
On déplace les .class dans le répertoire org/hadoop/wordcount/
Génération du fichier .jar
25
.
.
.
.
.
.
.
.
.
.
.
26
hdziane@hicham:~$ cd /usr/local/hadoop/
hdziane@hicham:/usr/local/hadoop$ bin/hdfs dfs -put /home/hdziane/Documents/poeme.txt /
hdziane@hicham:/usr/local/hadoop$ bin/hdfs dfs -ls /
hdziane@hicham:~$ cd /home/hdziane/Documents/code/
27
hdziane@hicham:~/Documents/code$ hadoop jar wcount.jar org.hadoop.wordcount.WCount /poeme.txt /results
28
29
hdziane@hicham:~$:~/Documents/code$ hadoop fs -ls /results
hdziane@hicham:~$:~/Documents/code$ hadoop fs -cat /results/part-r-00000
30
En fin on arrête tous les daemons en cours d'exécution sur votre la machine virtuelle
A travers les deux scripts stop-dfs.sh et stop-yarn.sh
31
3) Configuration d'un cluster multi-noeuds d'Apache Hadoop
Ajout du nouveau hostname de la machine master
Ajout des IP fixes des différentes machines du cluster
Configuration de manière permanente l'adresse IP fixe de la machine hadoopmaster
32
Suppression des fichiers du répertoire de stockage de données créer par l'installation single node
de Hadoop
Modification des fichiers de configuration de hadoop
Modification du fichier core-site.xml
33
Modification du fichier hdfs-site.xml
Modification du fichier mapred-site.xml
34
Modification du fichier yarn-site.xml
Création du fichier masters
35
Modification du fichier workers
Clonage de la machine hadoopmaster
Modification à faire dans les machines slave1 et slave2
*Configuration d'adresse IP fixe et de hostname*
36
Suppression des fichiers du répertoire de stockage de données créer par l'installation
single node de Hadoop
Slave 1
Slave 2
37
Connexion entre les machines du cluster
Testez la connexion entre les machines du cluster en effectuant des pings entre les différentes
machines
38
Copiez la clé ssh pour configurer un accès ssh sans mot de passe entre les machines du cluster
hdsaad@hadoopmaster:~$ ssh-copy-id -i /home/hdsaad/.ssh/id_rsa.pub
hdsaad@slave1
39
hdsaad@hadoopmaster:~$ ssh-copy-id -i /home/hdsaad/.ssh/id_rsa.pub
hdsaad@slave2
Testez la connexion ssh entre les différentes machines du cluster
Test de la connexion du master au slave2
40
Test de la connexion du slave2 au master
Modification du fichier hdfs-site.xml de la machine virtuelle slave1 et slave2
Slave1
41
Slave2
Formatage du namenode dans hadoopmaster
42
Démarrage du cluster
start-dfs.sh et start-yarn.sh
la commande jps
Master
43
Slave1
Slave2
44
Accéder aux services de Hadoop via le navigateur
live nodes
45
L’interface du Ressource manager
46
4) Exécution d'un programme Map/Reduce dans un cluster multi-
nœuds
Vérifier le bon fonctionnement de tous les noeuds du cluster
47
Exécution du programme Map/Reduce
48
hdsaad@hadoopmaster:~/Documents/code$
hadoop jar wcount.jar org.hadoop.wordcount.WCount /poeme.txt /results
hdsaad@hadoopmaster:~/Documents/code$ hadoop fs -ls /results
49
hdsaad@hadoopmaster:~/Documents/code$ hadoop fs -cat /results/part-r-00000
arrêter tous les daemons en cours d'exécution avec stop-dfs.sh et stop-yarn.sh .
50