Faculté des sciences de Tunis Session principal - Mai 2024
Examen Big Data
Partie I :
1. Qu'est-ce que le Big Data ? (encercler la bonne réponse ) (1 pts)
A. Des ensembles de données volumineux et complexes qui ne peuvent pas être
traités par des méthodes traditionnelles.
B. Un type de logiciel utilisé pour stocker et analyser de grandes quantités de
données.
C. Une approche marketing visant à cibler de larges groupes de consommateurs.
D. Un nouveau paradigme informatique qui permet de traiter et d'analyser des
données en temps réel.
2. Nommer les trois caractéristiques du BIG Data : (1.5 pts)
………………………….
…………………………
………………………….
3. Qu’est ce que le système doit assurer pour respecter les trois caractéristiques : (3 pts)
Le ……………………………. implique que le système doit être …………………..
La ……………………………..implique que le système doit être …………………..
La …………………………… implique que le système doit être …………………….
4.Un ingénieur au sein d'un grand établissement gère un composant crucial du système,
dédié à la collecte et au stockage des données.
Pour optimiser les performances de ce système, l'ingénieur a déployé une machine
performante dotée des caractéristiques suivantes :
Mémoire vive (RAM):
● Capacité: 16 Go
● Type de mémoire: DDR4
1
Faculté des sciences de Tunis Session principal - Mai 2024
● Vitesse: 3200 MHz ou plus
Disque dur:
● Type de disque: SSD
● Capacité: 512 Go ou plus
● Interface: NVMe PCIe 4.0
Suite à la mise en place de cette infrastructure, l'ingénieur fait face à un défi inattendu : la
quantité de données reçues a considérablement augmenté par rapport aux estimations
préliminaires.
Face à cet afflux de données, l'ingénieur envisage d'optimiser les performances de sa
machine en augmentant ses capacités en termes de processeur (CPU), de mémoire vive
(RAM) ...
a. Qu’appelle -t-on cette solution ? (0.5 pts)
………………………………………………………………………………………………
Quelques mois après la mise en place de la solution initiale, l'entreprise a connu une
croissance fulgurante, générant un afflux massif de données traitées à des vitesses sans
précédent.
Face à ce défi croissant, l'ingénieur a proposé d'augmenter les capacités de la machine
pour répondre aux exigences accrues. Cependant, sa proposition a été rejetée par la
direction, qui la jugeait inefficace, et lui a demandé de trouver une solution alternative plus
performante.
b. Proposez lui une solution : (1 pts)
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
………………………………………………
c. Qu’appelle-t-on cette solution? (0.5 pts)
……………………………………………………………………………………………………………
2
Faculté des sciences de Tunis Session principal - Mai 2024
Suite à la mise en place d'un système performant, l'ingénieur a opté pour l'installation de
Hadoop sur plusieurs machines afin de gérer son système Big Data. Ce système est
caractérisé par son hétérogénéité (différents systèmes d’exploitations)
d. Est ce qu’il peut installer Hadoop sur ce système ( cluster )? (0.5 pts)
………………………………………………………………………………………………………………
e. Proposez- lui une architecture d’un cluster composé de 4 machines en spécifiant le
rôle de chaque machine dans un système hadoop .( 2 pts)
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
5.
a. compléter la figure suivante par les couches de chaque version de Hadoop : (1 pts)
3
Faculté des sciences de Tunis Session principal - Mai 2024
b. Expliquer la limitation de la première version et la raison pour laquelle une nouvelle
couche a été ajoutée dans la deuxième version (des schémas explicatifs peuvent
être inclus si nécessaire).( 3 pts)
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………..…………………………………………………………………
………………………………………………………………………………………………………………………………………………
…………..……………………………………………………………………………………………………………………………………
………………………………………………………………………………………..………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………..…………………………………………………………………………………………………………………………
…………………………………………………………………………………………………..……………………………………………
………………………………………………………………………………………………………………………………………………
………………………………..………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………….
6. Les deux parties suivantes du code représentent les fonctions map et reduce utilisées
pour calculer le nombre d'occurrences de chaque mot dans une liste de phrases.. Veuillez
identifier que représente chaque partie, en vous basant sur la description de leur rôle dans
le calcul de la moyenne. (compléter par map_function ou reduce_function) (1 pts)
def ………………………..(key, values):
# Somme les occurrences du mot
return (key, sum(values))
def ……………………....(phrase):
# Sépare la phrase en mots
words = phrase.lower().split()
# Créer des couples (mot, 1) pour chaque mot
for word in words:
yield (word, 1)
4
Faculté des sciences de Tunis Session principal - Mai 2024
7. Qu’est ce qu’un environnement distribué? (0.5 pts)
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
8. Citer deux solutions techniques différentes pour créer un environnement distribué ou
on peut installer Hadoop et donc construire des cluster hadoop: (1 pts)
Solution 1 : ………………………………………..
Solutions 2 : ………………………………………..
Partie II : QCM (encercler les bonnes réponse ) (3.5 pts)
1. Lequel des solutions suivantes traduit les requêtes SQL en tâches MapReduce :
A. Hive
B. Hbase
C. Pig
D. Kafka
2. Quel est le composant principal de HDFS qui gère l'espace de stockage et l'accès aux
fichiers ?
A. JobTracker
B. TaskTracker
C. NameNode
D. DataNode
3. Quelle est la fonction principale du JobTracker dans Hadoop ?
A. Stocker les données du cluster Hadoop
B. Exécuter les tâches individuelles d'un job
C. Gérer et superviser l'exécution des jobs
D. Communiquer directement avec les clients utilisateurs
4. Quelle est la différence entre une tâche Map et une tâche Reduce dans le framework
MapReduce ?
A. Les tâches Map lisent les données et les écrivent, tandis que les tâches
Reduce ne lisent que les données.
5
Faculté des sciences de Tunis Session principal - Mai 2024
B. Les tâches Map traitent et transforment les données en une forme
intermédiaire, tandis que les tâches Reduce regroupent et agrègent les
résultats des tâches Map.
C. Les tâches Map s'exécutent sur le JobTracker, tandis que les tâches Reduce
s'exécutent sur les DataNodes.
D. Les tâches Map nécessitent une connexion internet, alors que les tâches
Reduce fonctionnent en mode hors ligne.
5. Quelle est la responsabilité principale d'un TaskTracker?
A. Déterminer le nombre de tâches nécessaires pour un job
B. Allouer des ressources aux tâches des jobs
C. Suivre l'état d'avancement du cluster
D. Soumettre des jobs Hadoop au JobTracker
6. Quels sont les deux composants principaux de YARN ?
A. ResourceManager et ApplicationMaster
B. JobTracker et TaskTracker
C. NameNode et DataNode
D. Client et NodeManager
7. Quelle est la responsabilité du ResourceManager dans YARN ?
A. Exécuter les tâches individuelles des jobs Hadoop
B. Gérer l'allocation des ressources de calcul aux applications
C. Stocker les métadonnées du système de fichiers HDFS
D. Soumettre des jobs Hadoop au cluster