AU : 2020-2021
Section : RT4
Examen - Big Data
Date : Juin 2021 Durée : 1h30 Nombre de pages : 1
Responsable du cours : Dr. Lilia Sfaxi Documents AUTORISÉS
1 Exercice I : Hadoop est mort... vive Hadoop ! [10pts]
Plusieurs spécialistes ont prévu depuis bien longtemps la chute de Hadoop comme plateforme
de stockage et de traitement Big Data, au profit d’autres technologies. Un article de Packt publié en
2018 et dramatiquement intitulé : "Why is Hadoop dying ?" commence comme suit :
“ Hadoop has been the definitive big data platform for some time. The name has practi-
cally been synonymous with the field. But while its ascent followed the trajectory of
what was referred to as the ‘big data revolution’, Hadoop now seems to be in danger.
The question is everywhere – is Hadoop dying out ? And if it is, why is it ? Is it be-
cause big data is no longer the buzzword it once was, or are there simply other ways of
working with big data that have become more useful ?
Why is Hadoop dying ?
1. Proposez (brièvement) votre propre réponse à cette question. [2pts]
”
L’article indique que, pourtant, Hadoop était à un moment essentiel à l’évolution du domaine
Big Data.
“ When Hadoop was open sourced in 2007, it opened the door to big data. It brought com-
pute to data, as against bringing data to compute. Organisations had the opportunity
to scale their data without having to worry too much about the cost. It obviously had
initial hiccups with security, the complexity of querying and querying speeds, but all
that was taken care off, in the long run. Still, although querying speeds remained quite
a pain, however that wasn’t the real reason behind Hadoop dying (slowly).
Why is Hadoop dying ?
”
2. Expliquer l’expression : It brought compute to data, as against bringing data to compute. [1pt]
3. Pourquoi dit-on que Hadoop avait des problèmes concernant la complexité du requêtage ?
Comment a-t-on ensuite remédié à cela ? [2pts]
L’article cite les raisons suivantes pour expliquer le déclin de Hadoop :
— As cloud grew, Hadoop started falling
— One person’s big data is another person’s small data
1
— Apache Hadoop vs Apache Spark
— Machine Learning in Hadoop is not straightforward
— Hadoop is not only Hadoop
4. Expliquer brièvement comment est-ce que chacun de ces aspects peuvent justifier les pro-
blèmes rencontrés en utilisant Hadoop. [5pts]
2 Exercice II : QCM [10pts]
Prière de répondre à ces questions en justifiant votre réponse. Toute o non justi est consi
fausse.
1. Comparé aux bases de données relationnelles, Hadoop HDFS .... :
(A) fournit une meilleure intégrité des données
(B) exécute les transactions ACID
(C) est adéquat pour des accès directs vers les données
(D) est plus performant pour réaliser des traitements par lot sur un grand volume de données
2. Dans une configuration de haute disponibilité du NameNode, si le noeud actif échoue, quel
noeud pourra prendre sa place ?
(A) Secondary Name Node
(B) Backup Node
(C) Standby NameNode
(D) Checkpoint Node
3. Le noeud responsable du checkpointing dans Hadoop (1) télécharge la FsImage et le EditLog
du NameNode, puis (2) les fusionne, ensuite (3) sauvegarde la FsImage modifiée ......
(A) Sur le disque
(B) Dans un Journal Node
(C) En la renvoyant au Name Node actif
4. Quel commentaire est faux à propos de Hadoop ?
(A) Hadoop fait partie du projet Apache
(B) Hadoop peut s’exécuter sur des machines banalisées (ordinaires)
(C) Hadoop est un projet Open-Source
(D) Hadoop peut exécuter tous les types de traitements Big Data
5. Quelle affirmation n’est pas correcte concernant Hadoop et Spark ?
(A) Les deux sont des plateformes de traitement de données
(B) Les deux sont des environnements de traitement distribué
(C) Les deux fournissent leurs propres systèmes de fichiers
(D) Les deux utilisent des APIs open-source pour faire le lien entre différents outils
6. Quelle caractéristique de Spark le rend plus performant que Hadoop Map Reduce ?
(A) Utilisation d’un moteur d’exécution de DAG (Direct Acyclic Graph) et le traitment en
mémoire
(B) Support des différents langages tels que Scala, Java, Python, etc.
(C) Les RDDs qui sont immuables et tolérants aux fautes
(D) Aucun des autres choix.
0
7. Quels gestionnaires de ressources est-ce que Spark supporte ?
(A) Standalone Cluster Manager
(B) MESOS
(C) YARN
(D) Toutes les réponses sont correctes.
8. La réplication des données dans Kafka peut résulter en une amélioration de la tolérance aux
fautes. Parmi les propositions suivantes, laquelle est un désavantage de la réplication ?
(A) Un état inconsistant
(B) La perte de données
(C) L’interblocage
(D) Les échecs partiels
9. Dans HBase, un HFile est créé pour chaque .... (indiquer la raison de ce choix dans votre
réponse)
(A) Famille de colonnes
(B) Groupe de colonnes
(C) Colonne
(D) Table
10. Un topic Kafka est configuré avec un facteur de réplication de 5. Deux noeuds du cluster ont
échoué. Les utilisateurs sont inquiets, car ils ont peur de perdre des messages. Comment leur
réponderiez-vous ?
(A) Ils ne doivent plus envoyer des messages jusqu’à ce que les deux serveurs soient restau-
rés.
(B) Ils peuvent continuer à envoyer des messages car la tolérance aux fautes accepte jusqu’à
4 serveurs en échec.
(C) Ils peuvent continuer à envoyer des messages car vous conservez un disque de backup
de tous les messages échangés.
♣ Bon travail