0% ont trouvé ce document utile (0 vote)

32 vues20 pages

Atelier 3 1

Ce document présente un atelier sur la configuration et la manipulation d'Apache Hadoop en mode distribué, en utilisant Docker. Il décrit les étapes nécessaires pour installer et configurer un cluster Hadoop, incluant la mise en place d'un environnement multi-nœuds et la manipulation du système de fichiers HDFS. L'atelier vise à enseigner aux participants comment déployer des traitements distribués et assurer la haute disponibilité avec Zookeeper.

Transféré par

rigan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues20 pages

Atelier 3 1

Transféré par

rigan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Big Data Atelier : N°3.

1
Apache Hadoop : Configuration & Manipulation Distribuées

Réalisé par :
Rihab CHLILI
Master SDII

Encadré par :
Pr. MOUNTASSER IMADEDDINE

Année universitaire 2024-2025

Table des matières

1 Introduction à Apache Hadoop 2

1.1 Objectif de l’atelier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Configurer Hadoop en Mode Complétement Distribué via Docker 3

2.1 Prérequis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Création de l’Environnement Hadoop . . . . . . . . . . . . . . . . . . . . . 4
2.3 Configuration de l’Environnement Hadoop . . . . . . . . . . . . . . . . . . 5
2.3.1 Liste des réseaux disponibles . . . . . . . . . . . . . . . . . . . . . . 5
2.3.2 Inspection du réseau hadoopnet . . . . . . . . . . . . . . . . . . . . 5
2.4 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.1 MasterNode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.2 Installation de Java sous hduser . . . . . . . . . . . . . . . . . . . . 8
2.4.3 Configuration SSH pour Hadoop . . . . . . . . . . . . . . . . . . . . 11
2.4.4 Installation et Configuration de Hadoop . . . . . . . . . . . . . . . 12
2.4.5 Création des DataNodes avec Docker . . . . . . . . . . . . . . . . . 16
2.5 Démarrage du Cluster HDFS . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Initialisation du système de fichiers HDFS . . . . . . . . . . . . . . 17
2.5.2 Lancement du système HDFS (NameNode, DataNodes, Secondaire) 17
2.5.3 Consultation de l’état du cluster HDFS avec dfsadmin . . . . . . . 18

3 Conclusion 19

1
Chapitre 1

Introduction à Apache Hadoop

Apache Hadoop est un framework open-source développé par la Fondation Apache

pour permettre le stockage distribué et le traitement parallèle de très grands volumes de
données (Big Data) sur un ensemble de machines standards (clusters).

1.1 Objectif de l’atelier

L’objectif de cet atelier est le suivant :

— Installer et configurer un écosystème Apache Hadoop sur Ubuntu, d’abord en mode

pseudo-distribué, puis en mode entièrement distribué, incluant également une confi-
guration via Docker.

L’atelier permet d’apprendre à :

— Mettre en place un cluster Hadoop local ou distribué.

— Manipuler le système de fichiers distribué HDFS via la ligne de commande.
— Interagir avec Hadoop à travers des applications Java dans différents scénarios.
— Tester et déployer des traitements distribués (comme MapReduce).
— Implémenter la Haute Disponibilité (HA) avec Zookeeper pour éliminer les points
uniques de défaillance.

2
Chapitre 2

Configurer Hadoop en Mode Compléte-

ment Distribué via Docker

2.1 Prérequis
la version de WSL (Windows Subsystem for Linux) et ses composants sur un sys-
tème Windows. Les détails incluent la version du noyau Linux, WSLg (pour l’interface
graphique), ainsi que les versions de Direct3D et DXCore, indiquant que le système est
configuré pour exécuter des applications Linux avec prise en charge graphique.

la version de Docker installée sur la machine (28.1.1), ainsi que le numéro de build. Cela
confirme que Docker est correctement installé et accessible depuis l’invite de commande
Windows.

Cela indique que l’environnement est configuré pour utiliser des technologies de vir-
tualisation et de conteneurisation (WSL pour Linux et Docker pour les conteneurs), ce
qui est typique pour un développement moderne sous Windows.

3
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Téléchargement de l’image Ubuntu

la commande docker pull ubuntu:20.04 exécutée pour télécharger l’image Docker

officielle d’Ubuntu 20.04. Le message Status: Image is up to date indique que l’image
était déjà présente en local et à jour, évitant ainsi un nouveau téléchargement. La men-
tion [Link]/library/ubuntu:20.04 confirme que l’image provient du dépôt officiel
Docker Hub.

Création du réseau Docker pour Hadoop

La commande docker network create hadoopnet initialise un réseau virtuel isolé,

spécialement conçu pour interconnecter les conteneurs du cluster Hadoop. Ce réseau de
type bridge agit comme un espace privé, permettant aux différents nœuds (MasterNode
et DataNodes) de communiquer entre eux de manière sécurisée et efficace, tout en restant
isolés des autres conteneurs non liés au cluster.

Le réseau Docker hadoopnet crée un environnement isolé et sécurisé pour le cluster

Hadoop, permettant une communication simplifiée entre nœuds via des noms d’hôte et
une configuration réseau centralisée. Il automatise l’adressage IP et la résolution DNS,
éliminant les configurations manuelles tout en optimisant les performances. Essentiel pour
HDFS et MapReduce, ce réseau assure une base stable et efficace pour le traitement
distribué des données.

2.2 Création de l’Environnement Hadoop

Configurer un cluster Hadoop multi-nœuds (1 MasterNode + 3 DataNodes) en utilisant
Docker, avec :

— Installation d’Hadoop 3.3.6.

— Configuration des variables d’environnement (JAVA_HOME, HADOOP_HOME,
etc.).

4
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

— Accès SSH sans mot de passe entre les nœuds.

— Partage du dossier Hadoop entre machines via scp pour éviter des téléchargements
répétés.

Résultat attendu :
Un cluster Hadoop opérationnel avec communication transparente entre nœuds, prêt pour
le déploiement de jobs MapReduce ou HDFS.

2.3 Configuration de l’Environnement Hadoop

2.3.1 Liste des réseaux disponibles

Cette image présente un tableau listant les réseaux Docker disponibles, avec les co-
lonnes suivantes :

— RETRONS ID : Identifiant unique de chaque réseau Docker.

— NAME : Nom du réseau (par exemple, "bridge", "hadoopnet", "host", "none").
— DRIVER : Type de pilote utilisé pour le réseau (par exemple, "bridge" pour un
réseau bridge par défaut, "host" pour le réseau hôte, "null" pour aucun réseau).
— SCORE : Indique "Local" pour tous les réseaux, ce qui signifie qu’ils sont gérés
localement.

Cette liste est utile pour comprendre la configuration réseau des conteneurs Docker,
notamment pour identifier les réseaux disponibles et leurs pilotes associés. Par exemple,
le réseau "bridge" est le réseau par défaut, tandis que "host" permet à un conteneur de
partager le réseau de l’hôte.

2.3.2 Inspection du réseau hadoopnet

une configuration détaillée d’un réseau Docker nommé "hadicopnet" (probablement
une faute de frappe pour "hadoopnet" comme dans la première image). Les informations
clés incluent :

— Name : Nom du réseau ("hadicopnet").

— Driver : Pilote "bridge", indiquant que c’est un réseau bridge personnalisé.

5
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

— EnableIPv4 : Activation de l’adressage IPv4.

— Subnet : Plage IP du sous-réseau ("[Link]/16").
— Gateway : Adresse IP de la passerelle ("[Link]").
— Containers : Liste des conteneurs connectés à ce réseau, avec :
— Un conteneur nommé "MasterNode" ayant l’adresse IP "[Link]/16".

Cette configuration est typique d’un réseau Docker personnalisé utilisé pour isoler
et connecter des conteneurs, comme dans un environnement Hadoop où "MasterNode"
pourrait être le nœud maître. La présence d’une passerelle et d’un sous-réseau montre que
ce réseau est configuré pour permettre la communication entre les conteneurs.

2.4 Hadoop

2.4.1 MasterNode

Lancer un conteneur Ubuntu 20.04

Pour lancer un conteneur Ubuntu 20.04 configuré comme nœud maître Hadoop, la com-
mande docker run -it –name MasterNode –hostname MasterNode –network hadoopnet
-p 9870:9870 -p 8088:8088 -p 9000:9000 ubuntu:20.04 est utilisée. Cette commande
active un mode interactif, attribue un nom et un hostname au conteneur, le connecte au
réseau hadoopnet, et expose les ports nécessaires pour HDFS et YARN. L’image Docker
utilisée est Ubuntu 20.04, préconfigurée pour Hadoop en mode distribué.

6
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Le conteneur MasterNode a démarré correctement, comme le confirme l’invite root

affichant le nom d’hôte et le répertoire racine. Les ports 9870 (NameNode), 8088 (Re-
sourceManager) et 9000 (RPC HDFS) sont exposés pour permettre l’accès aux services
Hadoop depuis l’hôte. Les prochaines étapes consistent à mettre à jour le système, instal-
ler Java et SSH, configurer Hadoop pour le nœud maître, puis préparer les autres nœuds
du cluster.

Configuration Initiale du MasterNode

Création d’un groupe et d’un utilisateur Hadoop

sudo addgroup hadoop :
Cette commande crée un nouveau groupe système nommé hadoop avec l’identifiant de
groupe (GID) 1000. Ce groupe sera utilisé pour gérer les permissions des fichiers et pro-
cessus liés à Hadoop.
sudo adduser –ingroup hadoop hduser :
Cette commande ajoute un nouvel utilisateur hduser en l’associant au groupe hadoop.
L’utilisateur reçoit l’UID (User ID) 1000, et un répertoire personnel (/home/hduser) est
créé. Cet utilisateur est généralement dédié à l’exécution des services Hadoop pour des
raisons de sécurité et d’isolation.

Mise à jour du système

apt-get update :
Met à jour la liste des paquets disponibles depuis les dépôts Ubuntu. Cela permet d’obtenir
les dernières versions logicielles avant installation.
apt-get upgrade -y :
Installe les mises à jour de tous les paquets existants sans confirmation interactive (-y).
Cette étape est essentielle pour garantir la sécurité et la stabilité du système avant d’ins-
taller Hadoop.

7
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

La commande d’installation des dépendances

La commande apt-get install -y openjdk-11-jdk ssh wget curl vim net-tools
pdsh nano installe plusieurs paquets essentiels pour configurer un environnement Ha-
doop :
— openjdk-11-jdk :
Installe Java 11 (JDK), requis pour exécuter Hadoop, car ce dernier est basé sur
Java.
— ssh :
Active les fonctionnalités SSH, nécessaires pour la communication sécurisée entre
les nœuds Hadoop (MasterNode et DataNodes).
— wget & curl :
Outils pour télécharger des fichiers depuis Internet (comme les archives Hadoop).
— vim & nano :
Éditeurs de texte en terminal pour modifier les fichiers de configuration Hadoop
(comme [Link], [Link], etc.).
— net-tools :
Fournit des utilitaires réseau (comme ifconfig, netstat), utiles pour diagnostiquer
les connexions entre nœuds.
— pdsh :
Outil pour exécuter des commandes en parallèle sur plusieurs machines, souvent
utilisé dans les clusters Hadoop.

2.4.2 Installation de Java sous hduser

Attribution des droits administrateur à hduser

La ligne hduser ALL=(ALL:ALL) ALL dans le fichier sudoers permet à l’utilisateur

hduser d’exécuter n’importe quelle commande avec les privilèges root. Cela est essentiel
pour installer des logiciels et modifier les fichiers système.

Vérification des permissions sudo de l’utilisateur

La commande sudo -l -U hduser liste les commandes que hduser est autorisé à
exécuter. Elle confirme que l’utilisateur a bien les droits sudo, ce qui est une étape de
sécurité et de vérification.

8
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Connexion à la session de l’utilisateur hduser

La commande su - hduser permet de passer à l’environnement de l’utilisateur hduser.

Ceci est important pour installer Java dans un environnement utilisateur propre.

Préparation du répertoire /opt/jdk

sudo mkdir -p /opt/jdk crée le dossier où Java sera installé. /opt est un emplace-
ment standard pour les logiciels tiers. L’option -p assure que tous les dossiers intermé-
diaires sont créés si nécessaire.

Téléchargement de Java (OpenJDK 11)

La commande wget télécharge l’archive contenant Java. C’est une étape cruciale pour
obtenir le package à installer manuellement.

Décompression et organisation du JDK

tar xvzf ... extrait le contenu de l’archive.

mv jdk-11.0.21+9 jdk-11 renomme le dossier pour une gestion plus simple. Ces
étapes permettent une installation propre dans /opt/jdk.

Vérification de la présence des fichiers installés

Cette commande montre que le fichier .[Link] et le dossier jdk-11 sont bien présents,
ce qui confirme que l’extraction et le renommage ont réussi.

9
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Définition de JAVA_HOME et mise à jour du PATH

Modifier ~/.bashrc pour y ajouter :

export JAVA_HOME=/opt/jdk/jdk-11
export PATH=$JAVA_HOME/bin:$PATH

Cela permet au système de savoir où Java est installé et d’y accéder depuis n’importe
quel terminal.

Vérification de l’installation de Java

La commande java -version montre que Java est installé et opérationnel. Ici, il
affiche la version 11.0.27, confirmant que Java est bien disponible pour l’utilisateur.

Activation des variables d’environnement

source ~/.bashrc recharge les configurations de l’environnement sans avoir besoin

de redémarrer la session. Cela active immédiatement les variables comme JAVA_HOME.

Vérification de la variable d’environnement JAVA_HOME

Cette commande confirme que JAVA_HOME pointe bien vers le bon dossier d’installation
de Java. C’est essentiel pour que d’autres programmes puissent trouver Java.

10
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

2.4.3 Configuration SSH pour Hadoop

Tentative échouée de connexion SSH à localhost

L’erreur "Connection refused" indique que le service SSH n’est pas encore installé
ou lancé sur la machine. Il est donc impossible de se connecter en SSH localement.

Installation des outils nécessaires : SSH & PDSH

sudo apt-get install ssh installe le serveur SSH qui permet les connexions dis-
tantes (ou locales) via SSH.
sudo apt-get install pdsh installe PDSH, un outil qui facilite l’exécution de com-
mandes en parallèle sur plusieurs machines (utile dans les clusters).

Définir le type de connexion pour PDSH

export PDSH_RCMD_TYPE=ssh indique à PDSH d’utiliser le protocole SSH pour exé-

cuter les commandes à distance. Cette configuration est essentielle pour que PDSH fonc-
tionne correctement avec SSH.

Création de la paire de clés SSH pour l’authentification automatique

ssh-keygen -t rsa -P "" génère une clé RSA sans mot de passe.
Cette clé permet l’authentification automatique sans saisie de mot de passe entre
nœuds (ou vers localhost), ce qui est indispensable pour les systèmes distribués comme
Hadoop.

Configuration de l’accès SSH sans mot de passe

cat ~/.ssh/id_rsa.pub » ~/.ssh/authorized_keys autorise la clé générée à se

connecter automatiquement.
chmod 600 ~/.ssh/authorized_keys sécurise le fichier pour qu’il soit lisible unique-
ment par l’utilisateur. Ces étapes permettent l’accès SSH sans mot de passe, même sur
localhost.

11
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Test de connexion SSH sans mot de passe avec ssh hduser@localhost

Cette commande teste si hduser peut se connecter à lui-même via SSH sans mot de
passe. C’est une étape essentielle pour vérifier que tout fonctionne avant d’appliquer cela
à plusieurs nœuds.

Connexion SSH à localhost réussie

Le système permet désormais une connexion SSH à localhost sans mot de passe.
Cela prouve que la configuration est correcte. Ce type d’accès est crucial pour les systèmes
distribués comme Hadoop, Spark, ou tout environnement de calcul parallèle.

2.4.4 Installation et Configuration de Hadoop

Téléchargement et extraction de Hadoop 3.3.6

Hadoop est téléchargé depuis le site officiel d’Apache. La commande tar -xvzf extrait
l’archive compressée contenant Hadoop.
Le répertoire est ensuite renommé en /opt/hadoop pour simplifier le chemin d’accès.
Cette étape installe les fichiers de base nécessaires à la configuration du cluster Hadoop.

12
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Création et configuration des répertoires DataNode

Le dossier /opt/dfs/datanode sera utilisé par HDFS pour stocker les blocs de don-
nées.
La commande chown est utilisée pour donner les droits à hduser et au groupe hadoop,
leur permettant d’écrire dans ce répertoire. C’est une étape cruciale pour le bon fonction-
nement du DataNode dans HDFS.

Définition des variables d’environnement Hadoop & Java

Les variables HADOOP_HOME, JAVA_HOME et PATH permettent de lancer les commandes

Hadoop et Java depuis n’importe quel répertoire.
De plus, PDSH_RCMD_TYPE=ssh est requis pour exécuter les commandes distribuées via
SSH. Cette configuration est essentielle pour garantir le bon fonctionnement de l’environ-
nement Hadoop.

Vérification de l’installation de Hadoop

La commande hadoop version permet de confirmer que Hadoop 3.3.6 est bien installé,
compilé et fonctionnel.

Configuration de l’URL du système de fichiers HDFS

Le fichier [Link] définit l’URL du système de fichiers distribué HDFS.

Dans ce cas, le point d’entrée est hdfs://MasterNode:9000, ce qui correspond à l’hôte
du NameNode.

13
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Définition des répertoires HDFS et du niveau de réplication

Les paramètres du fichier [Link] sont essentiels :

— [Link] indique où le NameNode stocke ses métadonnées.

— [Link] correspond au répertoire utilisé par le DataNode pour
stocker les blocs.
— [Link] = 3 signifie que chaque bloc de données est répliqué sur trois
nœuds (modifiable selon la taille du cluster).

Configuration de YARN pour la gestion des ressources

Dans le fichier [Link], les paramètres suivants sont configurés :

— [Link] indique l’adresse de l’hôte maître.

— [Link] est un service nécessaire pour l’exécution des jobs MapReduce.
— env-whitelist permet de préserver les variables d’environnement critiques comme
JAVA_HOME.

14
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Définir le moteur d’exécution MapReduce (YARN)

La propriété [Link] = yarn dans le fichier [Link]

indique que le framework MapReduce doit être exécuté via YARN, le système de gestion
des ressources d’Hadoop. Cela permet une gestion optimisée des ressources dans un cluster
distribué.

Configuration finale de l’environnement pour le démarrage

Pour finaliser l’environnement Hadoop :

— La variable JAVA_HOME est redéfinie pour s’assurer que Hadoop utilise bien la version
correcte de Java.
— HADOOP_ROOT_LOGGER="WARN" est utilisé pour limiter la verbosité des logs aux seuls
avertissements.
— La commande hdfs getconf -confKey [Link] est exécutée pour confirmer
que la configuration HDFS pointe bien vers l’URL définie dans [Link].

Ces étapes assurent que l’environnement est prêt pour initialiser le NameNode et
démarrer le cluster Hadoop.

15
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

2.4.5 Création des DataNodes avec Docker

Création de l’image Docker personnalisée hadoop-node-image

La commande docker commit MasterNode hadoop-node-image permet de créer une

image Docker à partir d’un conteneur déjà configuré (MasterNode). C’est une étape cru-
ciale pour cloner cette configuration et déployer d’autres nœuds Hadoop (DataNodes)
rapidement avec les mêmes paramètres.

Démarrage des conteneurs DataNode sur le réseau hadoopnet

Les trois conteneurs (DN1, DN2, DN3) sont lancés avec des noms d’hôtes explicites
(DataNode1, DataNode2, DataNode3) sur le même réseau Docker (hadoopnet). C’est es-
sentiel pour que les nœuds puissent communiquer entre eux par leurs noms d’hôtes, comme
dans un véritable cluster Hadoop distribué.

Déclaration des DataNodes dans le fichier workers

Dans Hadoop, le fichier workers liste tous les nœuds de travail (DataNodes). L’ajout de
DataNode1, DataNode2, DataNode3 ici permet au NameNode (MasterNode) de reconnaître
automatiquement les nœuds esclaves sur lesquels exécuter les tâches HDFS et MapReduce.

Identification des IPs des conteneurs dans le réseau hadoopnet

Chaque conteneur Docker sur le réseau hadoopnet reçoit une IP interne. Cette étape
permet de vérifier la correspondance entre noms d’hôtes et adresses IP, utile pour le fichier
/etc/hosts et le bon fonctionnement du cluster.

16
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

Ajout des correspondances IP / hôtes dans /etc/hosts

Il est nécessaire d’ajouter manuellement les lignes suivantes dans chaque conteneur via
nano /etc/hosts. Cela garantit que chaque conteneur peut résoudre les noms des autres
nœuds du cluster, évitant les erreurs de communication réseau.

2.5 Démarrage du Cluster HDFS

2.5.1 Initialisation du système de fichiers HDFS

La commande hdfs namenode -format est utilisée la première fois qu’on initialise
HDFS. Elle formate le NameNode, ce qui signifie qu’elle crée la structure de répertoires
HDFS et le fichier fsimage (image du système de fichiers distribué).

2.5.2 Lancement du système HDFS (NameNode, DataNodes, Se-

condaire)
La commande [Link] démarre les trois composants principaux du système de
fichiers Hadoop :
— Le NameNode sur le nœud principal (MasterNode) – responsable de la gestion des
métadonnées.
— Les DataNodes sur les nœuds esclaves – qui stockent physiquement les blocs de
données.
— Le Secondary NameNode – qui assiste le NameNode en sauvegardant régulière-
ment les métadonnées.
Cette étape est essentielle pour que le cluster soit opérationnel et prêt à stocker ou
traiter des données.

17
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER

2.5.3 Consultation de l’état du cluster HDFS avec dfsadmin

La commande hdfs dfsadmin -report permet d’obtenir un rapport détaillé du clus-
ter HDFS, notamment :

— Le nombre de DataNodes actifs.

— L’espace disque utilisé et disponible.
— Les blocs de données et leur distribution.

C’est une étape de diagnostic et de vérification importante pour s’assurer que tous les
nœuds sont bien connectés et que le système fonctionne correctement.

18
Chapitre 3

Conclusion

Cet atelier a permis de comprendre et de mettre en œuvre les différentes étapes néces-
saires à la configuration et à l’utilisation d’un écosystème Apache Hadoop dans plusieurs
environnements : pseudo-distribué, complètement distribué, et via Docker.
À travers des manipulations pratiques, les participants ont pu :

— Acquérir les compétences de base pour installer, configurer et sécuriser un cluster

Hadoop.
— Comprendre l’architecture maître/esclave et les composants clés tels que HDFS,
YARN, MapReduce.
— Utiliser la ligne de commande et des applications Java pour interagir avec le système.
— Apprendre à déployer Hadoop sur plusieurs machines physiques ou conteneurs, en
assurant la communication sécurisée via SSH.
— Explorer des notions avancées comme la Haute Disponibilité (HA) avec Zookeeper
pour garantir la fiabilité du système en production.

Ainsi, cet atelier constitue une base solide pour développer, gérer et maintenir des
systèmes de traitement de données distribuées à grande échelle dans des environnements
Big Data.

Vous aimerez peut-être aussi

Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Installation de Hadoop sur Ubuntu
Pas encore d'évaluation
Installation de Hadoop sur Ubuntu
11 pages
Mise en Place Envr TP
Pas encore d'évaluation
Mise en Place Envr TP
2 pages
Manipulation Shell Hadoop avec Docker
Pas encore d'évaluation
Manipulation Shell Hadoop avec Docker
6 pages
TP1: Installation D'un Cluster Hadoop Avec Docker
Pas encore d'évaluation
TP1: Installation D'un Cluster Hadoop Avec Docker
4 pages
Installer et configurer Hadoop sur Ubuntu
Pas encore d'évaluation
Installer et configurer Hadoop sur Ubuntu
11 pages
Lab - Docker Hadoop-02-2024
Pas encore d'évaluation
Lab - Docker Hadoop-02-2024
6 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Guide d'installation de Hadoop et Docker
Pas encore d'évaluation
Guide d'installation de Hadoop et Docker
83 pages
Guide d'installation Hadoop sur Linux
Pas encore d'évaluation
Guide d'installation Hadoop sur Linux
5 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
6 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
Hadoop Install
Pas encore d'évaluation
Hadoop Install
6 pages
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
Pas encore d'évaluation
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
13 pages
Projet Big Data
Pas encore d'évaluation
Projet Big Data
19 pages
Guide Complet Recommandation Hadoop
Pas encore d'évaluation
Guide Complet Recommandation Hadoop
40 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
9 pages
Installation Hadoop 2 sur Ubuntu 16.04
Pas encore d'évaluation
Installation Hadoop 2 sur Ubuntu 16.04
13 pages
TP2 - BD
0% (1)
TP2 - BD
8 pages
Installation de Hadoop en mode standalone
Pas encore d'évaluation
Installation de Hadoop en mode standalone
7 pages
Atelier - 3.1 (Apache Hadoop - UNIX - Distributed)
Pas encore d'évaluation
Atelier - 3.1 (Apache Hadoop - UNIX - Distributed)
29 pages
Procedure D'installation de Hadoop
Pas encore d'évaluation
Procedure D'installation de Hadoop
13 pages
Installation de Hadoop sur Ubuntu 14.10
Pas encore d'évaluation
Installation de Hadoop sur Ubuntu 14.10
10 pages
TP 2 Procéduredinstallation de Hadoop 240927 201419
Pas encore d'évaluation
TP 2 Procéduredinstallation de Hadoop 240927 201419
14 pages
Installation de Hadoop sur Ubuntu 18.04
100% (1)
Installation de Hadoop sur Ubuntu 18.04
13 pages
Installation de Hadoop sur Linux
100% (1)
Installation de Hadoop sur Linux
10 pages
Atelier 2 Big Data
Pas encore d'évaluation
Atelier 2 Big Data
14 pages
Youssef Boukhmira - Workshop 3 - (Responses)
Pas encore d'évaluation
Youssef Boukhmira - Workshop 3 - (Responses)
14 pages
Guide d'installation Hadoop et HBase
Pas encore d'évaluation
Guide d'installation Hadoop et HBase
16 pages
Installation de Hadoop avec Docker Compose
Pas encore d'évaluation
Installation de Hadoop avec Docker Compose
7 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
Le Cluster Hadoop
Pas encore d'évaluation
Le Cluster Hadoop
8 pages
Installation et configuration de Hadoop
Pas encore d'évaluation
Installation et configuration de Hadoop
11 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Guide d'Installation Hadoop sous Linux
Pas encore d'évaluation
Guide d'Installation Hadoop sous Linux
17 pages
Installer Hadoop sur Debian en 5 étapes
Pas encore d'évaluation
Installer Hadoop sur Debian en 5 étapes
16 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
Apache Hadoop Installation On Ubuntu (Multi-Node Cluster) .
Pas encore d'évaluation
Apache Hadoop Installation On Ubuntu (Multi-Node Cluster) .
11 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
Installation de Hadoop sur Linux
Pas encore d'évaluation
Installation de Hadoop sur Linux
7 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
7 pages
Borel
Pas encore d'évaluation
Borel
12 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
Chapitre - 5 Big Data
Pas encore d'évaluation
Chapitre - 5 Big Data
25 pages
Tp1 Big Data
Pas encore d'évaluation
Tp1 Big Data
10 pages
Lecture2 Bis
Pas encore d'évaluation
Lecture2 Bis
41 pages
Installation de Hadoop et Spark sur Windows
Pas encore d'évaluation
Installation de Hadoop et Spark sur Windows
5 pages
Big Data tp1
Pas encore d'évaluation
Big Data tp1
6 pages
Installation Hadoop
Pas encore d'évaluation
Installation Hadoop
22 pages
Installer Hadoop sur Machine Virtuelle
Pas encore d'évaluation
Installer Hadoop sur Machine Virtuelle
3 pages
Installer un cluster Hadoop sur Windows
Pas encore d'évaluation
Installer un cluster Hadoop sur Windows
4 pages
Installation et Configuration de Sqoop
Pas encore d'évaluation
Installation et Configuration de Sqoop
8 pages
Tp1 Big Data
Pas encore d'évaluation
Tp1 Big Data
8 pages
Profil Linkedin
Pas encore d'évaluation
Profil Linkedin
5 pages
Cours Java Swing Complet
Pas encore d'évaluation
Cours Java Swing Complet
3 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
Bases numériques et conversions arithmétiques
100% (1)
Bases numériques et conversions arithmétiques
13 pages
Cahier des charges infogérance informatique
Pas encore d'évaluation
Cahier des charges infogérance informatique
15 pages
Télécharger Stories Instagram Facilement
Pas encore d'évaluation
Télécharger Stories Instagram Facilement
1 page
Fiche Technique 5789
Pas encore d'évaluation
Fiche Technique 5789
2 pages
Le Réseau Informatique: Présentation
Pas encore d'évaluation
Le Réseau Informatique: Présentation
8 pages
10557A-FRA TrainerHandbook 01
Pas encore d'évaluation
10557A-FRA TrainerHandbook 01
630 pages
Administration Windows
Pas encore d'évaluation
Administration Windows
19 pages
Chap 1 - Programmation - Oriente - Objet - CHAPITRE - 1
Pas encore d'évaluation
Chap 1 - Programmation - Oriente - Objet - CHAPITRE - 1
67 pages
Chap 3 RPC
Pas encore d'évaluation
Chap 3 RPC
17 pages
Cours Angular
100% (2)
Cours Angular
44 pages
Structure en C
Pas encore d'évaluation
Structure en C
173 pages
Historique et fonctionnement d'Interbus
Pas encore d'évaluation
Historique et fonctionnement d'Interbus
41 pages
CV It
Pas encore d'évaluation
CV It
3 pages
Introduction à UML et ses diagrammes
Pas encore d'évaluation
Introduction à UML et ses diagrammes
87 pages
Exercices de Programmation Web PHP
Pas encore d'évaluation
Exercices de Programmation Web PHP
6 pages
Définitions des domaines et profils utilisateurs
Pas encore d'évaluation
Définitions des domaines et profils utilisateurs
4 pages
Resume Ccna2
Pas encore d'évaluation
Resume Ccna2
4 pages
Introduction au système Ubuntu Open Source
Pas encore d'évaluation
Introduction au système Ubuntu Open Source
61 pages
Virtualisation Systemes Information
100% (1)
Virtualisation Systemes Information
90 pages
Computaionnel 1
Pas encore d'évaluation
Computaionnel 1
5 pages
Cours Et Exercices Corrigés en Pascal
71% (7)
Cours Et Exercices Corrigés en Pascal
71 pages
Bilan Thème Internet 2023
Pas encore d'évaluation
Bilan Thème Internet 2023
4 pages
TDSE 01 09 2019-Correction
100% (1)
TDSE 01 09 2019-Correction
10 pages
Modèle Conceptuel de Données Access 2010
100% (1)
Modèle Conceptuel de Données Access 2010
37 pages
Tp2 Regulation
67% (3)
Tp2 Regulation
13 pages
Les Structures Cours en C
Pas encore d'évaluation
Les Structures Cours en C
40 pages
Cappylaris
Pas encore d'évaluation
Cappylaris
182 pages