TP 1
Installation et configuration d’Apache Hadoop
Objectif :
Afin de réaliser ce TP on doit suivre les étapes suivantes :
Etape 1 (téléchargement et installation)
Télécharger et installer java
Télécharger et installer hadoop
Etape 2 (paramétrage des variables d’environnement)
Java_Home
Hadoop_Home
Etape 3 (configuration d’Hadoop)
Modifier 5 fichiers
Copier le fichier winutils
Etape 4 (Tester Hadoop)
Tester les commandes de démarrage
Tester les commandes d’arrêt
I. Etape 1 (téléchargement et installation)
Hadoop
Pour télécharger Hadoop visitez le site web mentionné sur la figure et cliquer sur download
Vous pouvez remarquer un dossier compresser est encours de téléchargement
Extraire le dossier dans C et nommé le Hadoop comme suit
1
Télécharger sur google un dossier nommée winutils Hadoop 2.6
Cliquer sur le deuxième lien
Le téléchargement sera lancé
Java
Pour télécharger java il faut vérifier tout d’abord qu’il n’existe plus dans votre machine pour ce faire
démarrer l’invite de commande (cmd) comme suit :
En tapant sur la barre de recherche cmd et en cliquant avec le bouton droit sur Exécuter en tant
qu’Administrateur
Une nouvelle fenêtre qui s’affiche devant vous :
2
Tapez la commande java -version
Vous pouvez remarquer que java n’est pas reconnu
Maintenant on doit télécharger java
Visitez le site web suivant :
Lancer le téléchargement en cliquant sur ce bouton
Après cliquer donwload
Il vous demande de créer un compte
Remplir les champs nécessaires
3
Valider le compte et lancer le téléchargement
Lancer l’installation de java
Cliquer sur change pour changer l’emplacement d’enregistrement
Modifier le comme suit
La même chose ici vous devez changer l’emplacement de l’installation de dossier jre comme suit
4
Créer un nouveau dossier et nommée le jre1.8.0_202
Suivant –suivant--- et close
Vérifier maintenant que l’installation de java est bien réussie
II. Etape 2 (paramétrage des variables d’environnement)
On passera à la configuration d'une variable d'environnement
Pour Java
Tapez variables dans la barre de recherche
5
Cliquer sur variables d’environnement puis sur nouvelle
Ajouter le nom de la variable et le chemin comme la figure
Cliquer sur path puis modifier
6
Ajouter deux le chemin vers les bin de jdk
Pour Hadoop
Refaire la même chose pour Hadoop
Dans les variables d’environnement ajouter un chemin pour Hadoop
Modifier le path et ajouter un chemin vers le bin et sbin
7
Etape 3 (configuration d’Hadoop)
copier le contenu du dossier winutils Hadoop 2.6
Coller le dans Hadoop\bin comme suit
Entrer dans le chemin suivant
C:\hadoop\etc\hadoop
On doit éditer et modifier 5 fichiers :
Core [Link]
Apporter les modifications suivantes
Le deuxième fichier est hdfs [Link]
Apporter les modifications suivantes
8
Le 3ème fichier est yarn [Link]
Apporter les modifications suivantes
Le 4ème fichier est yarn [Link]
Apporter les modifications suivantes
Le 5ème fichier est hadoop-env
Apporter les modifications suivantes
9
Etape 4 (Tester Hadoop)
Avant de commencer vérifier que Hadoop a été bien installer pour ce faire taper la commende
Hadoop –version
On va lancer la commande de formatage hdfs namenode -format
On peut remarquer la création du dossier namenode
Dans le namenode on peut trouver les deux fichier fsimage et edits
On peut démarrer le namenode et le datanode avec la commande start-dfs
10
On peut remarquer le démarrage de deux fenêtres namenode et datanode
On peut remarquer la création du dossier datanode
Dans le dataenode on trouve un fichier version qui vient du namenode
Démarrer maintenant yarn
Avec la commande start-yarn
et on peut remarquer l’exécution du nodemanager et resourcemanager
11
Vérifier le démarrage des ressources de notre cluster avec la commande jps
Exécuter maintenant la commande stop-dfs
On remarque que deux fenêtres qui sont fermé le namenode et le datanode
Exécuter la commande stop-yarn
On remarque que deux fenêtres qui sont fermé le resourcemanager et le datamanager
Avec la commande start-all vous pouvez démarrer tous les composants
On peut voir maintenant le web en tapant [Link]
C’est lien vers resourcemanager dans lequel on trouve toute les tache programmé
Avec le deuxième lien on peut voir des informations sur le cluster et datanode
12
Dans les utilities – browse the file system on va créer des fichier et des base de données
Finalement
Avec la commande stop-all vous pouvez fermer tous les composants
13