Big Data Atelier : N°3.
1
Apache Hadoop : Configuration & Manipulation Distribuées
Réalisé par :
Rihab CHLILI
Master SDII
Encadré par :
Pr. MOUNTASSER IMADEDDINE
Année universitaire 2024-2025
Table des matières
1 Introduction à Apache Hadoop 2
1.1 Objectif de l’atelier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Configurer Hadoop en Mode Complétement Distribué via Docker 3
2.1 Prérequis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Création de l’Environnement Hadoop . . . . . . . . . . . . . . . . . . . . . 4
2.3 Configuration de l’Environnement Hadoop . . . . . . . . . . . . . . . . . . 5
2.3.1 Liste des réseaux disponibles . . . . . . . . . . . . . . . . . . . . . . 5
2.3.2 Inspection du réseau hadoopnet . . . . . . . . . . . . . . . . . . . . 5
2.4 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.1 MasterNode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.2 Installation de Java sous hduser . . . . . . . . . . . . . . . . . . . . 8
2.4.3 Configuration SSH pour Hadoop . . . . . . . . . . . . . . . . . . . . 11
2.4.4 Installation et Configuration de Hadoop . . . . . . . . . . . . . . . 12
2.4.5 Création des DataNodes avec Docker . . . . . . . . . . . . . . . . . 16
2.5 Démarrage du Cluster HDFS . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Initialisation du système de fichiers HDFS . . . . . . . . . . . . . . 17
2.5.2 Lancement du système HDFS (NameNode, DataNodes, Secondaire) 17
2.5.3 Consultation de l’état du cluster HDFS avec dfsadmin . . . . . . . 18
3 Conclusion 19
1
Chapitre 1
Introduction à Apache Hadoop
Apache Hadoop est un framework open-source développé par la Fondation Apache
pour permettre le stockage distribué et le traitement parallèle de très grands volumes de
données (Big Data) sur un ensemble de machines standards (clusters).
1.1 Objectif de l’atelier
L’objectif de cet atelier est le suivant :
— Installer et configurer un écosystème Apache Hadoop sur Ubuntu, d’abord en mode
pseudo-distribué, puis en mode entièrement distribué, incluant également une confi-
guration via Docker.
L’atelier permet d’apprendre à :
— Mettre en place un cluster Hadoop local ou distribué.
— Manipuler le système de fichiers distribué HDFS via la ligne de commande.
— Interagir avec Hadoop à travers des applications Java dans différents scénarios.
— Tester et déployer des traitements distribués (comme MapReduce).
— Implémenter la Haute Disponibilité (HA) avec Zookeeper pour éliminer les points
uniques de défaillance.
2
Chapitre 2
Configurer Hadoop en Mode Compléte-
ment Distribué via Docker
2.1 Prérequis
la version de WSL (Windows Subsystem for Linux) et ses composants sur un sys-
tème Windows. Les détails incluent la version du noyau Linux, WSLg (pour l’interface
graphique), ainsi que les versions de Direct3D et DXCore, indiquant que le système est
configuré pour exécuter des applications Linux avec prise en charge graphique.
la version de Docker installée sur la machine (28.1.1), ainsi que le numéro de build. Cela
confirme que Docker est correctement installé et accessible depuis l’invite de commande
Windows.
Cela indique que l’environnement est configuré pour utiliser des technologies de vir-
tualisation et de conteneurisation (WSL pour Linux et Docker pour les conteneurs), ce
qui est typique pour un développement moderne sous Windows.
3
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Téléchargement de l’image Ubuntu
la commande docker pull ubuntu:20.04 exécutée pour télécharger l’image Docker
officielle d’Ubuntu 20.04. Le message Status: Image is up to date indique que l’image
était déjà présente en local et à jour, évitant ainsi un nouveau téléchargement. La men-
tion [Link]/library/ubuntu:20.04 confirme que l’image provient du dépôt officiel
Docker Hub.
Création du réseau Docker pour Hadoop
La commande docker network create hadoopnet initialise un réseau virtuel isolé,
spécialement conçu pour interconnecter les conteneurs du cluster Hadoop. Ce réseau de
type bridge agit comme un espace privé, permettant aux différents nœuds (MasterNode
et DataNodes) de communiquer entre eux de manière sécurisée et efficace, tout en restant
isolés des autres conteneurs non liés au cluster.
Le réseau Docker hadoopnet crée un environnement isolé et sécurisé pour le cluster
Hadoop, permettant une communication simplifiée entre nœuds via des noms d’hôte et
une configuration réseau centralisée. Il automatise l’adressage IP et la résolution DNS,
éliminant les configurations manuelles tout en optimisant les performances. Essentiel pour
HDFS et MapReduce, ce réseau assure une base stable et efficace pour le traitement
distribué des données.
2.2 Création de l’Environnement Hadoop
Configurer un cluster Hadoop multi-nœuds (1 MasterNode + 3 DataNodes) en utilisant
Docker, avec :
— Installation d’Hadoop 3.3.6.
— Configuration des variables d’environnement (JAVA_HOME, HADOOP_HOME,
etc.).
4
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
— Accès SSH sans mot de passe entre les nœuds.
— Partage du dossier Hadoop entre machines via scp pour éviter des téléchargements
répétés.
Résultat attendu :
Un cluster Hadoop opérationnel avec communication transparente entre nœuds, prêt pour
le déploiement de jobs MapReduce ou HDFS.
2.3 Configuration de l’Environnement Hadoop
2.3.1 Liste des réseaux disponibles
Cette image présente un tableau listant les réseaux Docker disponibles, avec les co-
lonnes suivantes :
— RETRONS ID : Identifiant unique de chaque réseau Docker.
— NAME : Nom du réseau (par exemple, "bridge", "hadoopnet", "host", "none").
— DRIVER : Type de pilote utilisé pour le réseau (par exemple, "bridge" pour un
réseau bridge par défaut, "host" pour le réseau hôte, "null" pour aucun réseau).
— SCORE : Indique "Local" pour tous les réseaux, ce qui signifie qu’ils sont gérés
localement.
Cette liste est utile pour comprendre la configuration réseau des conteneurs Docker,
notamment pour identifier les réseaux disponibles et leurs pilotes associés. Par exemple,
le réseau "bridge" est le réseau par défaut, tandis que "host" permet à un conteneur de
partager le réseau de l’hôte.
2.3.2 Inspection du réseau hadoopnet
une configuration détaillée d’un réseau Docker nommé "hadicopnet" (probablement
une faute de frappe pour "hadoopnet" comme dans la première image). Les informations
clés incluent :
— Name : Nom du réseau ("hadicopnet").
— Driver : Pilote "bridge", indiquant que c’est un réseau bridge personnalisé.
5
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
— EnableIPv4 : Activation de l’adressage IPv4.
— Subnet : Plage IP du sous-réseau ("[Link]/16").
— Gateway : Adresse IP de la passerelle ("[Link]").
— Containers : Liste des conteneurs connectés à ce réseau, avec :
— Un conteneur nommé "MasterNode" ayant l’adresse IP "[Link]/16".
Cette configuration est typique d’un réseau Docker personnalisé utilisé pour isoler
et connecter des conteneurs, comme dans un environnement Hadoop où "MasterNode"
pourrait être le nœud maître. La présence d’une passerelle et d’un sous-réseau montre que
ce réseau est configuré pour permettre la communication entre les conteneurs.
2.4 Hadoop
2.4.1 MasterNode
Lancer un conteneur Ubuntu 20.04
Pour lancer un conteneur Ubuntu 20.04 configuré comme nœud maître Hadoop, la com-
mande docker run -it –name MasterNode –hostname MasterNode –network hadoopnet
-p 9870:9870 -p 8088:8088 -p 9000:9000 ubuntu:20.04 est utilisée. Cette commande
active un mode interactif, attribue un nom et un hostname au conteneur, le connecte au
réseau hadoopnet, et expose les ports nécessaires pour HDFS et YARN. L’image Docker
utilisée est Ubuntu 20.04, préconfigurée pour Hadoop en mode distribué.
6
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Le conteneur MasterNode a démarré correctement, comme le confirme l’invite root
affichant le nom d’hôte et le répertoire racine. Les ports 9870 (NameNode), 8088 (Re-
sourceManager) et 9000 (RPC HDFS) sont exposés pour permettre l’accès aux services
Hadoop depuis l’hôte. Les prochaines étapes consistent à mettre à jour le système, instal-
ler Java et SSH, configurer Hadoop pour le nœud maître, puis préparer les autres nœuds
du cluster.
Configuration Initiale du MasterNode
Création d’un groupe et d’un utilisateur Hadoop
sudo addgroup hadoop :
Cette commande crée un nouveau groupe système nommé hadoop avec l’identifiant de
groupe (GID) 1000. Ce groupe sera utilisé pour gérer les permissions des fichiers et pro-
cessus liés à Hadoop.
sudo adduser –ingroup hadoop hduser :
Cette commande ajoute un nouvel utilisateur hduser en l’associant au groupe hadoop.
L’utilisateur reçoit l’UID (User ID) 1000, et un répertoire personnel (/home/hduser) est
créé. Cet utilisateur est généralement dédié à l’exécution des services Hadoop pour des
raisons de sécurité et d’isolation.
Mise à jour du système
apt-get update :
Met à jour la liste des paquets disponibles depuis les dépôts Ubuntu. Cela permet d’obtenir
les dernières versions logicielles avant installation.
apt-get upgrade -y :
Installe les mises à jour de tous les paquets existants sans confirmation interactive (-y).
Cette étape est essentielle pour garantir la sécurité et la stabilité du système avant d’ins-
taller Hadoop.
7
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
La commande d’installation des dépendances
La commande apt-get install -y openjdk-11-jdk ssh wget curl vim net-tools
pdsh nano installe plusieurs paquets essentiels pour configurer un environnement Ha-
doop :
— openjdk-11-jdk :
Installe Java 11 (JDK), requis pour exécuter Hadoop, car ce dernier est basé sur
Java.
— ssh :
Active les fonctionnalités SSH, nécessaires pour la communication sécurisée entre
les nœuds Hadoop (MasterNode et DataNodes).
— wget & curl :
Outils pour télécharger des fichiers depuis Internet (comme les archives Hadoop).
— vim & nano :
Éditeurs de texte en terminal pour modifier les fichiers de configuration Hadoop
(comme [Link], [Link], etc.).
— net-tools :
Fournit des utilitaires réseau (comme ifconfig, netstat), utiles pour diagnostiquer
les connexions entre nœuds.
— pdsh :
Outil pour exécuter des commandes en parallèle sur plusieurs machines, souvent
utilisé dans les clusters Hadoop.
2.4.2 Installation de Java sous hduser
Attribution des droits administrateur à hduser
La ligne hduser ALL=(ALL:ALL) ALL dans le fichier sudoers permet à l’utilisateur
hduser d’exécuter n’importe quelle commande avec les privilèges root. Cela est essentiel
pour installer des logiciels et modifier les fichiers système.
Vérification des permissions sudo de l’utilisateur
La commande sudo -l -U hduser liste les commandes que hduser est autorisé à
exécuter. Elle confirme que l’utilisateur a bien les droits sudo, ce qui est une étape de
sécurité et de vérification.
8
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Connexion à la session de l’utilisateur hduser
La commande su - hduser permet de passer à l’environnement de l’utilisateur hduser.
Ceci est important pour installer Java dans un environnement utilisateur propre.
Préparation du répertoire /opt/jdk
sudo mkdir -p /opt/jdk crée le dossier où Java sera installé. /opt est un emplace-
ment standard pour les logiciels tiers. L’option -p assure que tous les dossiers intermé-
diaires sont créés si nécessaire.
Téléchargement de Java (OpenJDK 11)
La commande wget télécharge l’archive contenant Java. C’est une étape cruciale pour
obtenir le package à installer manuellement.
Décompression et organisation du JDK
tar xvzf ... extrait le contenu de l’archive.
mv jdk-11.0.21+9 jdk-11 renomme le dossier pour une gestion plus simple. Ces
étapes permettent une installation propre dans /opt/jdk.
Vérification de la présence des fichiers installés
Cette commande montre que le fichier .[Link] et le dossier jdk-11 sont bien présents,
ce qui confirme que l’extraction et le renommage ont réussi.
9
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Définition de JAVA_HOME et mise à jour du PATH
Modifier ~/.bashrc pour y ajouter :
export JAVA_HOME=/opt/jdk/jdk-11
export PATH=$JAVA_HOME/bin:$PATH
Cela permet au système de savoir où Java est installé et d’y accéder depuis n’importe
quel terminal.
Vérification de l’installation de Java
La commande java -version montre que Java est installé et opérationnel. Ici, il
affiche la version 11.0.27, confirmant que Java est bien disponible pour l’utilisateur.
Activation des variables d’environnement
source ~/.bashrc recharge les configurations de l’environnement sans avoir besoin
de redémarrer la session. Cela active immédiatement les variables comme JAVA_HOME.
Vérification de la variable d’environnement JAVA_HOME
Cette commande confirme que JAVA_HOME pointe bien vers le bon dossier d’installation
de Java. C’est essentiel pour que d’autres programmes puissent trouver Java.
10
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
2.4.3 Configuration SSH pour Hadoop
Tentative échouée de connexion SSH à localhost
L’erreur "Connection refused" indique que le service SSH n’est pas encore installé
ou lancé sur la machine. Il est donc impossible de se connecter en SSH localement.
Installation des outils nécessaires : SSH & PDSH
sudo apt-get install ssh installe le serveur SSH qui permet les connexions dis-
tantes (ou locales) via SSH.
sudo apt-get install pdsh installe PDSH, un outil qui facilite l’exécution de com-
mandes en parallèle sur plusieurs machines (utile dans les clusters).
Définir le type de connexion pour PDSH
export PDSH_RCMD_TYPE=ssh indique à PDSH d’utiliser le protocole SSH pour exé-
cuter les commandes à distance. Cette configuration est essentielle pour que PDSH fonc-
tionne correctement avec SSH.
Création de la paire de clés SSH pour l’authentification automatique
ssh-keygen -t rsa -P "" génère une clé RSA sans mot de passe.
Cette clé permet l’authentification automatique sans saisie de mot de passe entre
nœuds (ou vers localhost), ce qui est indispensable pour les systèmes distribués comme
Hadoop.
Configuration de l’accès SSH sans mot de passe
cat ~/.ssh/id_rsa.pub » ~/.ssh/authorized_keys autorise la clé générée à se
connecter automatiquement.
chmod 600 ~/.ssh/authorized_keys sécurise le fichier pour qu’il soit lisible unique-
ment par l’utilisateur. Ces étapes permettent l’accès SSH sans mot de passe, même sur
localhost.
11
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Test de connexion SSH sans mot de passe avec ssh hduser@localhost
Cette commande teste si hduser peut se connecter à lui-même via SSH sans mot de
passe. C’est une étape essentielle pour vérifier que tout fonctionne avant d’appliquer cela
à plusieurs nœuds.
Connexion SSH à localhost réussie
Le système permet désormais une connexion SSH à localhost sans mot de passe.
Cela prouve que la configuration est correcte. Ce type d’accès est crucial pour les systèmes
distribués comme Hadoop, Spark, ou tout environnement de calcul parallèle.
2.4.4 Installation et Configuration de Hadoop
Téléchargement et extraction de Hadoop 3.3.6
Hadoop est téléchargé depuis le site officiel d’Apache. La commande tar -xvzf extrait
l’archive compressée contenant Hadoop.
Le répertoire est ensuite renommé en /opt/hadoop pour simplifier le chemin d’accès.
Cette étape installe les fichiers de base nécessaires à la configuration du cluster Hadoop.
12
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Création et configuration des répertoires DataNode
Le dossier /opt/dfs/datanode sera utilisé par HDFS pour stocker les blocs de don-
nées.
La commande chown est utilisée pour donner les droits à hduser et au groupe hadoop,
leur permettant d’écrire dans ce répertoire. C’est une étape cruciale pour le bon fonction-
nement du DataNode dans HDFS.
Définition des variables d’environnement Hadoop & Java
Les variables HADOOP_HOME, JAVA_HOME et PATH permettent de lancer les commandes
Hadoop et Java depuis n’importe quel répertoire.
De plus, PDSH_RCMD_TYPE=ssh est requis pour exécuter les commandes distribuées via
SSH. Cette configuration est essentielle pour garantir le bon fonctionnement de l’environ-
nement Hadoop.
Vérification de l’installation de Hadoop
La commande hadoop version permet de confirmer que Hadoop 3.3.6 est bien installé,
compilé et fonctionnel.
Configuration de l’URL du système de fichiers HDFS
Le fichier [Link] définit l’URL du système de fichiers distribué HDFS.
Dans ce cas, le point d’entrée est hdfs://MasterNode:9000, ce qui correspond à l’hôte
du NameNode.
13
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Définition des répertoires HDFS et du niveau de réplication
Les paramètres du fichier [Link] sont essentiels :
— [Link] indique où le NameNode stocke ses métadonnées.
— [Link] correspond au répertoire utilisé par le DataNode pour
stocker les blocs.
— [Link] = 3 signifie que chaque bloc de données est répliqué sur trois
nœuds (modifiable selon la taille du cluster).
Configuration de YARN pour la gestion des ressources
Dans le fichier [Link], les paramètres suivants sont configurés :
— [Link] indique l’adresse de l’hôte maître.
— [Link] est un service nécessaire pour l’exécution des jobs MapReduce.
— env-whitelist permet de préserver les variables d’environnement critiques comme
JAVA_HOME.
14
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Définir le moteur d’exécution MapReduce (YARN)
La propriété [Link] = yarn dans le fichier [Link]
indique que le framework MapReduce doit être exécuté via YARN, le système de gestion
des ressources d’Hadoop. Cela permet une gestion optimisée des ressources dans un cluster
distribué.
Configuration finale de l’environnement pour le démarrage
Pour finaliser l’environnement Hadoop :
— La variable JAVA_HOME est redéfinie pour s’assurer que Hadoop utilise bien la version
correcte de Java.
— HADOOP_ROOT_LOGGER="WARN" est utilisé pour limiter la verbosité des logs aux seuls
avertissements.
— La commande hdfs getconf -confKey [Link] est exécutée pour confirmer
que la configuration HDFS pointe bien vers l’URL définie dans [Link].
Ces étapes assurent que l’environnement est prêt pour initialiser le NameNode et
démarrer le cluster Hadoop.
15
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
2.4.5 Création des DataNodes avec Docker
Création de l’image Docker personnalisée hadoop-node-image
La commande docker commit MasterNode hadoop-node-image permet de créer une
image Docker à partir d’un conteneur déjà configuré (MasterNode). C’est une étape cru-
ciale pour cloner cette configuration et déployer d’autres nœuds Hadoop (DataNodes)
rapidement avec les mêmes paramètres.
Démarrage des conteneurs DataNode sur le réseau hadoopnet
Les trois conteneurs (DN1, DN2, DN3) sont lancés avec des noms d’hôtes explicites
(DataNode1, DataNode2, DataNode3) sur le même réseau Docker (hadoopnet). C’est es-
sentiel pour que les nœuds puissent communiquer entre eux par leurs noms d’hôtes, comme
dans un véritable cluster Hadoop distribué.
Déclaration des DataNodes dans le fichier workers
Dans Hadoop, le fichier workers liste tous les nœuds de travail (DataNodes). L’ajout de
DataNode1, DataNode2, DataNode3 ici permet au NameNode (MasterNode) de reconnaître
automatiquement les nœuds esclaves sur lesquels exécuter les tâches HDFS et MapReduce.
Identification des IPs des conteneurs dans le réseau hadoopnet
Chaque conteneur Docker sur le réseau hadoopnet reçoit une IP interne. Cette étape
permet de vérifier la correspondance entre noms d’hôtes et adresses IP, utile pour le fichier
/etc/hosts et le bon fonctionnement du cluster.
16
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
Ajout des correspondances IP / hôtes dans /etc/hosts
Il est nécessaire d’ajouter manuellement les lignes suivantes dans chaque conteneur via
nano /etc/hosts. Cela garantit que chaque conteneur peut résoudre les noms des autres
nœuds du cluster, évitant les erreurs de communication réseau.
2.5 Démarrage du Cluster HDFS
2.5.1 Initialisation du système de fichiers HDFS
La commande hdfs namenode -format est utilisée la première fois qu’on initialise
HDFS. Elle formate le NameNode, ce qui signifie qu’elle crée la structure de répertoires
HDFS et le fichier fsimage (image du système de fichiers distribué).
2.5.2 Lancement du système HDFS (NameNode, DataNodes, Se-
condaire)
La commande [Link] démarre les trois composants principaux du système de
fichiers Hadoop :
— Le NameNode sur le nœud principal (MasterNode) – responsable de la gestion des
métadonnées.
— Les DataNodes sur les nœuds esclaves – qui stockent physiquement les blocs de
données.
— Le Secondary NameNode – qui assiste le NameNode en sauvegardant régulière-
ment les métadonnées.
Cette étape est essentielle pour que le cluster soit opérationnel et prêt à stocker ou
traiter des données.
17
CHAPITRE 2. CONFIGURER HADOOP EN MODE COMPLÉTEMENT
DISTRIBUÉ VIA DOCKER
2.5.3 Consultation de l’état du cluster HDFS avec dfsadmin
La commande hdfs dfsadmin -report permet d’obtenir un rapport détaillé du clus-
ter HDFS, notamment :
— Le nombre de DataNodes actifs.
— L’espace disque utilisé et disponible.
— Les blocs de données et leur distribution.
C’est une étape de diagnostic et de vérification importante pour s’assurer que tous les
nœuds sont bien connectés et que le système fonctionne correctement.
18
Chapitre 3
Conclusion
Cet atelier a permis de comprendre et de mettre en œuvre les différentes étapes néces-
saires à la configuration et à l’utilisation d’un écosystème Apache Hadoop dans plusieurs
environnements : pseudo-distribué, complètement distribué, et via Docker.
À travers des manipulations pratiques, les participants ont pu :
— Acquérir les compétences de base pour installer, configurer et sécuriser un cluster
Hadoop.
— Comprendre l’architecture maître/esclave et les composants clés tels que HDFS,
YARN, MapReduce.
— Utiliser la ligne de commande et des applications Java pour interagir avec le système.
— Apprendre à déployer Hadoop sur plusieurs machines physiques ou conteneurs, en
assurant la communication sécurisée via SSH.
— Explorer des notions avancées comme la Haute Disponibilité (HA) avec Zookeeper
pour garantir la fiabilité du système en production.
Ainsi, cet atelier constitue une base solide pour développer, gérer et maintenir des
systèmes de traitement de données distribuées à grande échelle dans des environnements
Big Data.
19