Année Universitaire 2023/2024
Filière : 4IIR
Groupe : 4
CORRECTION DU CONTROLE BIG DATA
Partie I: Questions Théoriques
1. Qu'est-ce que le framework Hadoop et quel est son rôle dans le domaine du Big Data?
Le framework Apache Hadoop est une plateforme Big Data open source utilisée pour le stockage
et le traitement distribué des données sur des clusters/serveurs.
2. Quels sont les principaux composants de HDFS et quelles sont leurs fonctions spécifiques?
Namenode: Gère le namespace et maintient les métadonnées du système de fichiers.
Datanode: Stocke les données sous forme de blocs sur le disque local.
Secondary Namenode: Assiste le Namenode en effectuant des sauvegardes périodiques de ses
métadonnées.
3. Quelle est l'importance du secondary namenode dans HDFS et comment il contribue à la
fiabilité du système de fichiers distribué?
Le secondary namenode dans HDFS joue un rôle crucial dans la gestion des sauvegardes du
système de fichiers distribué. Il permet de réduire la charge du Namenode principal et de créer
des sauvegardes régulières de l'image du système de fichiers, contribuant ainsi à la fiabilité et à la
récupération en cas de défaillance du système.
4. Quelles sont les étapes du processus de lecture d'un fichier HDFS dans l'ordre correct?
1. Ouverture du fichier, Récupération des métadonnées, Transmission des métadonnées,
Lecture des blocs, Fermeture de la connexion, Combinaison des blocs.
5. Qu'est-ce que MapReduce et quel est son rôle dans le traitement des données dans un
environnement distribué?
MapReduce est un modèle de programmation utilisé pour le traitement et la génération des
données de manière distribuée. Il divise les tâches en différentes étapes: 1) Map, 2) Shuffle, et 3)
Reduce, permettant ainsi un traitement parallèle efficace. Son rôle est de faire le traitement des
données sur des clusters.
6. Expliquez le rôle du JobTracker dans l'architecture MapReduce, en mettant en avant ses
responsabilités et ses interactions avec les TaskTrackers.
Le JobTracker attribue des tâches MapReduce aux TaskTrackers, surveille leur exécution et gère
les Jobs. Les TaskTrackers exécutent les tâches spécifiques et communiquent avec le JobTracker.
Pr. OULAD SAYAD Younes Contrôle Big Data
7. Qu'est-ce que YARN (Yet Another Resource Negotiator) et quel est son rôle dans l'évolution
de l'architecture de traitement distribué dans Hadoop?
YARN est un système de gestion de ressources dans Hadoop qui permet une utilisation
optimale des ressources en déployant des applications de traitement de données de manière
dynamique.
Partie II: Questions Pratiques
1. Quelle commande utilisez-vous pour déplacer des fichiers de la machine locale vers la
machine virtuelle Hadoop?
A. scp -P 2222 C:/ex_fichier.txt [email protected]:/home/
2. Comment transférez-vous des fichiers de la machine virtuelle vers HDFS?
A. hdfs dfs -put /home/USERNAME/repertoire_1/fichier_test.txt
3. Quelle est la commande pour créer un répertoire dans HDFS pour un nouvel utilisateur et
définir les autorisations appropriées?
B. hdfs dfs -mkdir /user/USERNAME, puis hdfs dfs -chown USERNAME:hadoop
/user/USERNAME
4. Comment déplacer un fichier dans HDFS?
A. hdfs dfs -mv fichier_source fichier_destination
5. Avant de compiler un programme dans Hadoop, quelle commande permet de récupérer le
chemin de classpath et de l'ajouter au classpath actuel?
B. export CLASSPATH=hadoop classpath:.:
6. Quelle est la commande pour exécuter un programme MapReduce dans Hadoop?
C. hadoop jar myprogram.jar input_dir output_dir
7. Comment spécifiez-vous le répertoire d'entrée et de sortie lors de l'exécution d'un travail
MapReduce?
C. En les passant comme arguments à la commande hadoop jar
Pr. OULAD SAYAD Younes Contrôle Big Data