TP1: Installation D'un Cluster Hadoop Avec Docker

Ce document décrit un TP sur l'installation d'un cluster Hadoop à l'aide de Docker, en détaillant les étapes d'installation de Docker, le téléchargement de l'image Hadoop-Spark et la création de conteneurs. Les utilisateurs apprendront à manipuler HDFS, à créer des dossiers, à transférer des fichiers et à gérer les permissions. Enfin, le TP inclut des instructions pour arrêter les conteneurs après utilisation.

Transféré par

2j74cvc5y8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

63 vues4 pages

TP1: Installation D'un Cluster Hadoop Avec Docker

Transféré par

2j74cvc5y8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

TP1: Installation d’un Cluster Hadoop

avec docker
Pour rappel, Apache Hadoop est un framework open-source employer pour le stockage et le
traitement de grandes quantités de données. Le framework de base est composé des modules:
Hadoop Common - contient les bibliothèques nécessaires aux autres modules Hadoop;
Hadoop Distributed File System (HDFS) - un système de fichiers distribué qui stocke les
données sur des machines, fournissant une bande passante globale très élevée à travers le
cluster;
Hadoop MapReduce : une implémentation du modèle de programmation MapReduce pour le
traitement de données à grande échelle.
Hadoop YARN - une plate-forme chargée de gérer les ressources informatiques dans les
clusters et de les utiliser pour planifier les applications des utilisateurs;

L’objectif de ce TP est de :
 Installer un cluster hadoop avec docker
 Se familiariser avec les commandes HDFS

Docker est un service de gestion de conteneurs. Il permet d'isoler les applications dans des
conteneurs avec des instructions indiquant exactement ce dont elles ont besoin pour survivre
et pouvant être facilement transférées d'une machine à l'autre. Dans ce TP, nous allons utiliser
Docker pour démarrer notre cluster Hadoop à base d’une image.
Nous allons utiliser trois conteneurs représentant respectivement un nœud maître
(Namenode) et deux nœuds esclaves (Datanodes).

I. Installation Cluster Hadoop

1. Installation docker
 Mettre à jour le système
sudo apt-get update
 installer docker via la commande suivante
sudo apt-get install docker.io
 ou bien suivre les instruction du Site officiel
 Pour vérifier si docker a été correctement installé
docker version
2. Télécharger l’image hadoop-spark-cluster
 Sur le terminal importer la dernière version de l’image hadoop-spark-cluster depuis
dockerHub
docker pull yassern1/hadoop-spark-cluster
 pour afficher la listes des images disponibles
docker images

YASSER EL MADANI EL ALAMI 1

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

 pour plus de détails sur les commandes docker documentation

Client hadoop-master

hadoop-slave1 hadoop-slave2
3. Création d’un volume de partage
Créer un dossier hadoop_project pour l’échange de
documents entre votre machine et le container (tout ce que
vous aller y mettre sera visible dans le container)
sur l’explorateur ou bien sur la ligne de commande
SOUS LINUX: ~/Documents/hadoop_project
SOUS WINDOWS: C:/USERS/.../Documents/hadoop_project

4. Création des trois conteneurs

Créer les trois conteneurs à partir de l'image téléchargée en réseau. Pour se faire :
 Créer d’abord un réseau qui permettra de relier les trois conteneurs:
docker network create --driver=bridge hadoop
 Créer et lancer les trois conteneurs
Conteneur 1 : hadoop-master
docker run -itd -v ~/Documents/hadoop_project/:/shared_volume
--net=hadoop -p 50070:50070 -p 8088:8088 -p 7077:7077 -p
16010:16010 --name hadoop-master --hostname hadoop-master
yassern1/hadoop-spark-cluster
Conteneur 2 hadoop-slave1
docker run -itd -p 8040:8042 --net=hadoop --name hadoop-
slave1 --hostname hadoop-slave1 yassern1/hadoop-spark-
cluster
Conteneur 3 hadoop-slave2
docker run -itd -p 8041:8042 --net=hadoop --name hadoop-
slave2 --hostname hadoop-slave2 yassern1/hadoop-spark-
cluster
5. Accéder au master
Entrer dans le conteneur master pour commencer à l'utiliser
docker exec -it hadoop-master bash
6. Démarrer hadoop et yarn
lancer hadoop et yarn en utilisant un script fourni appelé start-hadoop.sh.

YASSER EL MADANI EL ALAMI 2

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

./start-hadoop.sh
 A la fin du démarrage, vérifier si hadoop et yarn ont démarré correctement. Pour
ce faire Dans un navigateur, entrer l’adresse
NameNode web UI: localhost:50070
Ressource Manager UI: localhost:8088
MapReduce JobHistory Server: localhost:16010
7. Manipulations sur HDFS
 Créer un dossier input à l’aide de la commande
hdfs dfs -mkdir input
N.B : Si le bash vous retourne une erreur avec le message : `.': No such file
or directory, Créer l'arborescence de l'utilisateur principal (root), comme suit:
hadoop fs -mkdir -p /user/root
 utiliser la commande suivante pour afficher le contenu de la racine
hdfs dfs -ls
 afficher les fichiers des sous-dossiers, avec une taille arrondie en Ko, Mo ou Go
hdfs dfs -ls -R -h ./
 Copier le fichier purchases.txt dans le dossier de partage
~/Documents/hadoop_project
 Copiez ce fichier sur HDFS par
hdfs dfs -put /shared_volume/purchases.txt .
 Pour vérifier Utiliser
hdfs dfs -ls -R

 Affiche le contenu du fichier à l’aide de la commande

hdfs dfs -cat purchases.txt
1. afficher la fin du fichier
hdfs dfs -tail purchases.txt
3. Supprimer ce fichier de HDFS
hdfs dfs -rm purchases.txt
 Remettre à nouveau ce fichier par
hdfs dfs -copyFromLocal /shared_volume/purchases.txt ./input
vérifier le contenu avec
hdfs dfs -ls
 Vérifiez son propriétaire, son groupe et ses droits
hdfs dfs -chmod go+w ./input/purchases.txt

• hdfs dfs -chmod go-r ./input/ purchases.txt (vérifiez les

droits)
 Déplacer le fichier
hdfs dfs -mv /input/purchases.txt
 vérifier avec
hdfs dfs -ls -R

YASSER EL MADANI EL ALAMI 3

BIG DATA ANNÉE UNIVERSITAIRE 2024-2025

 transférer le fichier de HDFS vers votre machine en changeant le nom

hdfs dfs -get ./input/purchases.txt /shared_volume/achat.txt
 Copier le fichier dans une autre emplacement (la racine hdfs par exemple), ensuite
vérifier avec -ls
hdfs dfs -cp ./input/purchases.txt ./purchases.txt
La documentation sur les commandes hadoop est disponible sur le site officiel
8. télécharger un fichier sur hdfs
 Créer un dossier input dans le HDFS
hdfs dfs -mkdir -p web_input
 Télécharger le livre alice se trouvant sur l’url ci-dessous dans votre machine locale
wget http://www.textfiles.com/etext/FICTION/alice.txt
 Copier le fichier vers le dossier partager hadoop_project
 Copier le fichier depuis la machine local vers le dossier input du hdfs
hdfs dfs -put /shared_volume/alice.txt web_input
 Vérifier l’opération
hdfs dfs -ls web_input
 Sortir de bash de hadoop-master exit
 Arrêter les trois conteneurs
docker stop hadoop-master hadoop-slave1 hadoop-slave2

YASSER EL MADANI EL ALAMI 4

Vous aimerez peut-être aussi

Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
TP: Commandes Shell Hadoop avec Docker
Pas encore d'évaluation
TP: Commandes Shell Hadoop avec Docker
6 pages
Hadoop MapReduce - Apache Sqoop
Pas encore d'évaluation
Hadoop MapReduce - Apache Sqoop
83 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Mise en Place Envr TP
Pas encore d'évaluation
Mise en Place Envr TP
2 pages
Atelier 3 1
Pas encore d'évaluation
Atelier 3 1
20 pages
TP Hadoop: Déploiement et MapReduce
Pas encore d'évaluation
TP Hadoop: Déploiement et MapReduce
10 pages
Lab - Docker Hadoop-02-2024
Pas encore d'évaluation
Lab - Docker Hadoop-02-2024
6 pages
Hadoop Install
Pas encore d'évaluation
Hadoop Install
6 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
7 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Installer et configurer Hadoop sur Ubuntu
Pas encore d'évaluation
Installer et configurer Hadoop sur Ubuntu
11 pages
TP2 - BD
0% (1)
TP2 - BD
8 pages
TP1 Hadoop-Initiation 2023
Pas encore d'évaluation
TP1 Hadoop-Initiation 2023
4 pages
TP5Bigdata INDIA 2023 2024
Pas encore d'évaluation
TP5Bigdata INDIA 2023 2024
5 pages
Guide d'Installation Hadoop sous Linux
Pas encore d'évaluation
Guide d'Installation Hadoop sous Linux
17 pages
Borel
Pas encore d'évaluation
Borel
12 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
TP BD Hadoop
Pas encore d'évaluation
TP BD Hadoop
7 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
Installation de Hadoop sous Windows
Pas encore d'évaluation
Installation de Hadoop sous Windows
3 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Rapport de Proje BIGDATA
Pas encore d'évaluation
Rapport de Proje BIGDATA
15 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
6 pages
Big Data tp1
Pas encore d'évaluation
Big Data tp1
6 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
Bigdata Docker
Pas encore d'évaluation
Bigdata Docker
35 pages
Projet Big Data
Pas encore d'évaluation
Projet Big Data
19 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
10 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Big Data et Hadoop : Guide Essentiel
Pas encore d'évaluation
Big Data et Hadoop : Guide Essentiel
8 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
Guide d'installation Hadoop sur Linux
Pas encore d'évaluation
Guide d'installation Hadoop sur Linux
5 pages
Lecture2 Bis
Pas encore d'évaluation
Lecture2 Bis
41 pages
CR 1
Pas encore d'évaluation
CR 1
10 pages
Les Données Massives
Pas encore d'évaluation
Les Données Massives
80 pages
TP 2 Procéduredinstallation de Hadoop 240927 201419
Pas encore d'évaluation
TP 2 Procéduredinstallation de Hadoop 240927 201419
14 pages
Youssef Boukhmira - Workshop 3 - (Responses)
Pas encore d'évaluation
Youssef Boukhmira - Workshop 3 - (Responses)
14 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Bibidada Final
Pas encore d'évaluation
Bibidada Final
10 pages
1atelier 1 - Installation Hadoop - V23-24
Pas encore d'évaluation
1atelier 1 - Installation Hadoop - V23-24
11 pages
Installation de Hadoop sur Linux
Pas encore d'évaluation
Installation de Hadoop sur Linux
7 pages
Atelier3-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3-KafkaLocal Said Ali Abdi
24 pages
TP Bigdata ModouFall
Pas encore d'évaluation
TP Bigdata ModouFall
10 pages
Machine Virtuelle Hadoop Pour Les TP de BigData - EXPLICATIONS - PDC - Qemu
Pas encore d'évaluation
Machine Virtuelle Hadoop Pour Les TP de BigData - EXPLICATIONS - PDC - Qemu
3 pages
Ecosystème Hadoop Chapitre2
Pas encore d'évaluation
Ecosystème Hadoop Chapitre2
12 pages
TP1 - HDFS VF
Pas encore d'évaluation
TP1 - HDFS VF
9 pages
TP1 BigDataAnalytics Initiation Hadoop
Pas encore d'évaluation
TP1 BigDataAnalytics Initiation Hadoop
9 pages
TP1 Installation
Pas encore d'évaluation
TP1 Installation
7 pages
TP6Bigdata INDIA 2023 2024
Pas encore d'évaluation
TP6Bigdata INDIA 2023 2024
4 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
4 pages
TP Hadoop
100% (1)
TP Hadoop
15 pages
Devoir BREZAK Laly - BENIN Maéva
Pas encore d'évaluation
Devoir BREZAK Laly - BENIN Maéva
3 pages
Ap Glsi 2122 DS
Pas encore d'évaluation
Ap Glsi 2122 DS
5 pages
Introduction Norme Et Certification
100% (1)
Introduction Norme Et Certification
37 pages
Tutoriel Dialux EVO : Guide Complet
Pas encore d'évaluation
Tutoriel Dialux EVO : Guide Complet
5 pages
CHAPITRE2 - Mémoire Virtuelle
Pas encore d'évaluation
CHAPITRE2 - Mémoire Virtuelle
17 pages
Analyse Fonctionnelle
Pas encore d'évaluation
Analyse Fonctionnelle
3 pages
Modèle de trame de procédure processus
Pas encore d'évaluation
Modèle de trame de procédure processus
3 pages
Examen Final - Auto - MEE2301 - S2 - APP
Pas encore d'évaluation
Examen Final - Auto - MEE2301 - S2 - APP
2 pages
Modélisation D'un Système Technique Pour Prof
100% (10)
Modélisation D'un Système Technique Pour Prof
2 pages
F MB 32 Optimisation Des Entrainements Electriques
Pas encore d'évaluation
F MB 32 Optimisation Des Entrainements Electriques
16 pages
Technicien IT Débutant Motivé
Pas encore d'évaluation
Technicien IT Débutant Motivé
2 pages
Examen-ASSEU 2324 v3 Correcti
100% (1)
Examen-ASSEU 2324 v3 Correcti
9 pages
Analyse de données avec QlikView
Pas encore d'évaluation
Analyse de données avec QlikView
7 pages
Modèle Relationnel en Bases de Données
Pas encore d'évaluation
Modèle Relationnel en Bases de Données
65 pages
0 Chap0 - Cem
Pas encore d'évaluation
0 Chap0 - Cem
4 pages
34 2024 Nabilridoini
Pas encore d'évaluation
34 2024 Nabilridoini
31 pages
Introduction au langage JavaScript
Pas encore d'évaluation
Introduction au langage JavaScript
85 pages
Utc14 PDF
Pas encore d'évaluation
Utc14 PDF
3 pages
Essai Cône d'Abrams : Ouvrabilité du Béton
100% (2)
Essai Cône d'Abrams : Ouvrabilité du Béton
5 pages
Objectif 1.2 - Configurer Microsoft Windows
Pas encore d'évaluation
Objectif 1.2 - Configurer Microsoft Windows
180 pages
Définition Et Fonctionnement Du Ecomerce
Pas encore d'évaluation
Définition Et Fonctionnement Du Ecomerce
2 pages
ProNest 2019 Quick Start Guide 4
Pas encore d'évaluation
ProNest 2019 Quick Start Guide 4
1 page
Le Protocole MQTT
Pas encore d'évaluation
Le Protocole MQTT
4 pages
FLIR b60 FR
Pas encore d'évaluation
FLIR b60 FR
2 pages
Solutions Client Léger pour Entreprises
Pas encore d'évaluation
Solutions Client Léger pour Entreprises
7 pages
CV Natallia Taratynava
Pas encore d'évaluation
CV Natallia Taratynava
5 pages
Programme Assistant-Virtuel FORMALIS
Pas encore d'évaluation
Programme Assistant-Virtuel FORMALIS
9 pages
Phase préanalytique de l'antibiogramme
Pas encore d'évaluation
Phase préanalytique de l'antibiogramme
12 pages
Développeur Full Stack à Douala
Pas encore d'évaluation
Développeur Full Stack à Douala
1 page
Systemes Repartisreparti PDF
Pas encore d'évaluation
Systemes Repartisreparti PDF
174 pages