0% ont trouvé ce document utile (0 vote)
76 vues4 pages

Comprendre Apache Hadoop et YARN

Cet examen de Big Data, dirigé par Mme Lilia Sfaxi, se compose d'un QCM de 4 pages portant sur des sujets tels qu'Hadoop et Spark. Les étudiants doivent remplir une feuille de réponse en respectant des instructions spécifiques concernant la correction et la soumission. Les questions abordent divers aspects techniques des systèmes de gestion de données, y compris la tolérance aux pannes, l'architecture et les mécanismes de traitement.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
76 vues4 pages

Comprendre Apache Hadoop et YARN

Cet examen de Big Data, dirigé par Mme Lilia Sfaxi, se compose d'un QCM de 4 pages portant sur des sujets tels qu'Hadoop et Spark. Les étudiants doivent remplir une feuille de réponse en respectant des instructions spécifiques concernant la correction et la soumission. Les questions abordent divers aspects techniques des systèmes de gestion de données, y compris la tolérance aux pannes, l'architecture et les mécanismes de traitement.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

DS – Big Data

Filière : GL4 Année Univ. : 2023/2024 Semestre : 2 Durée : 1h


Documents : Autorisés Enseignante : Mme Lilia Sfaxi Nb de Pages : 4 (à rendre)

Instructions
• Cet examen est sous la forme d'un QCM. Vous comprendrez, selon l'énoncé de chaque question, s'il s'agit d'une réponse
unique ou multiple.
• Il faut remplir et rendre uniquement la feuille de réponse, en remplissant totalement le cercle avec un stylo de couleur
foncée.
• Attention, vous ne pourrez pas demander une autre feuille de votre surveillant ! Si vous vous êtes trompé.e, il faut
utiliser un correcteur pour blanchir le cercle en question.

Feuille de réponse au QCM

CIN
Hadoop (8 points) E. Envoi périodique, par les DataNodes, de Heartbeats
au NameNode pour déclarer qu’ils sont actifs.
1. Quel était l’objectif initial de la conception d’Apache Ha-
doop ? 7. Quel est l’objectif principal de l’opération de checkpointing
dans HDFS ?
A. Gestion de base de données relationnelle.
B. Traitement massif par lot pour analyser des données A. Accélérer le démarrage de la machine en réduisant le
web. temps nécessaire pour relire le EditLog.
C. Support pour des applications de messagerie instan- B. Éviter d’avoir un trop grand EditLog, ce qui facilite-
tanée. rait le traitement par le NameNode.
D. Hébergement de sites web. C. Recréer l’état actuel du système de fichiers en cas de
2. Quels sont les deux principaux inconvénients du design ini- défaillance du NameNode.
tial d’Hadoop qui ont conduit au développement de YARN ? D. Augmenter la capacité de stockage des données sur
le NameNode en libérant de l’espace disque.
A. Couplage fort du modèle de programmation avec l’in-
frastructure de gestion des ressources 8. Quand le processus de checkpoint est-il généralement dé-
B. Absence de sécurité des données clenché dans HDFS ?
C. Manque de support pour le streaming en temps réel A. Lorsque le NameNode reçoit un nombre spécifique de
D. Faible capacité de stockage requêtes de lecture.
E. Traitement centralisé des flux de contrôle des tâches B. Après une certaine période de temps ou un certain
3. Que permet la nouvelle architecture YARN par rapport à nombre de transactions dans le EditLog.
l’architecture Hadoop originale ? C. Immédiatement après chaque mise à jour du système
A. Elle améliore exclusivement la sécurité des données. de fichiers.
B. Elle permet le traitement en temps réel des données. D. Lorsque le DataNode signale une perte de données.
C. Elle découple le modèle de programmation de l’infra- 9. Quel rôle joue le Secondary NameNode dans le processus
structure de gestion des ressources. de checkpointing ?
D. Elle réduit la taille des données à traiter. A. Il met à jour les fichiers de métadonnées en temps
4. Quelle est la fonction principale du ResourceManager (RM) réel.
dans YARN ? B. Il fusionne le EditLog avec la FsImage et envoie la
A. Exécuter des tâches au niveau de chaque Worker. nouvelle FsImage au NameNode.
B. Stocker des données dans HDFS. C. Il gère les demandes de lecture et d’écriture des utili-
C. Arbitrer les ressources parmi différentes applications sateurs pendant le checkpointing.
en compétition dans le cluster. D. Il optimise le processus de recherche de données par
D. Coordonner l’exécution d’une application dans le le NameNode en organisant les métadonnées.
cluster. 10. Quelles sont les différences principales entre le Secondary
5. Comment YARN améliore-t-il l’utilisation des ressources NameNode (2NN) et le Standby NameNode (SbNN) dans
par rapport à l’approche originale de Hadoop ? HDFS ? (plusieurs réponses possibles)
A. En segmentant les données de manière dynamique A. Le SbNN ajoute la haute disponibilité (HA) en étant
pour optimiser le traitement parallèle sans tenir constamment à jour avec les changements du sys-
compte de la localité des données. tème de fichiers.
B. En augmentant automatiquement la quantité de mé- B. Le 2NN remplace le Primary NameNode en cas de
moire disponible pour chaque tâche sans égard pour panne, contrairement au SbNN.
les besoins spécifiques de chaque application. C. Le SbNN est utilisé pour créer des checkpoints mais
C. En automatisant le processus de réplication des don- ne garantit pas la haute disponibilité.
nées pour optimiser la bande passante entre les D. Les DataNodes envoient les emplacements des blocs
nœuds. et les heartbeats uniquement au 2NN.
D. En intégrant un système de cache intelligent pour ré- E. Le SbNN récupère rapidement en cas de panne car
duire la latence des accès disque. son état est similaire à celui du NameNode principal.
E. En traitant les ressources du cluster comme un conti- 11. Parmi les propositions suivantes, laquelle n’est PAS une rai-
nuum discrétisé et en fournissant un modèle de res- son d’introduire YARN dans l’écosystème de Hadoop ?
sources flexible.
A. Séparation de la gestion des ressources de celle des
6. Quels sont les mécanismes implémentés dans Hadoop pour
traitements
assurer la tolérance aux pannes ? (plusieurs réponses cor-
rectes) B. Possibilité d’intégrer de nouvelles solutions de traite-
ment à HDFS
A. Réplication automatique des données sur plusieurs
C. Diminution partielle des responsabilités de la ma-
nœuds dans le cluster pour garantir la disponibilité
chine Master
des données en cas de défaillance d’un nœud.
B. Mise en œuvre d’un système de vote majoritaire pour D. Optimisation des performances d’exécution des dif-
décider quelle version d’une donnée est correcte en férents NameNode.
cas de divergence entre les nœuds. 12. Quelle affirmation décrit le mieux la transition de l’utilisa-
C. Utilisation d’un algorithme de consensus distribué tion des slots dans Hadoop 1 à l’utilisation des containers
pour la gestion des métadonnées et la coordination dans YARN ?
des tâches entre les nœuds. A. Les slots permettaient une allocation flexible des res-
D. Création automatique d’instances de sauvegarde sources pour différents types de charges de travail,
pour les services critiques afin de permettre une bas- tandis que les containers assignent des ressources de
cule rapide en cas de panne du service principal. manière rigide.

1-A
B. Hadoop 1 utilisait des slots prédéfinis pour Map et Re- D. Hadoop est principalement utilisé pour l’apprentis-
duce tasks, tandis que YARN remplace cette approche sage automatique tandis que Spark est conçu pour le
par des containers pour une gestion plus dynamique traitement par lots.
et flexible des ressources. 18. Quelles sont les principales utilisations de Hadoop et Spark
C. Les containers dans YARN ont été introduits pour dans le traitement des données ?
augmenter la capacité de traitement des données et A. Hadoop est mieux adapté pour le traitement en strea-
réduire les délais de calcul par rapport aux slots dans ming ; Spark est optimisé pour le traitement par lots.
Hadoop 1.
B. Hadoop est principalement utilisé pour le stockage
D. YARN a conservé le concept des slots de Hadoop 1 de données et le traitement par lots ; Spark est utilisé
mais a augmenté leur nombre pour permettre une pour les traitements par lots et en streaming.
plus grande parallélisation des tâches.
C. Spark ne peut traiter que des données structurées ;
13. Quel rôle jouent les DataNodes dans l’architecture Ha- Hadoop est conçu pour des données non structurées.
doop ? D. Hadoop est optimisé pour les analyses en temps réel ;
A. Exécuter les tâches de MapReduce sur les données. Spark est utilisé seulement pour le machine learning.
B. Stocker les méta-données nécessaires pour organiser 19. En matière de tolérance aux fautes, comment Hadoop et
les fichiers. Spark gèrent-ils la récupération de données ?
C. Sauvegarder les données utiles réparties sur plusieurs A. Hadoop utilise le checkpointing ; Spark utilise le mé-
nœuds. canisme de lineage pour reconstruire les données
D. Coordonner la distribution et le traitement des don- perdues.
nées. B. Spark utilise des checkpoints sur le système de fi-
14. En quoi consiste la stratégie de réplication de HDFS pour chiers distribué ; Hadoop utilise la réplication.
garantir la tolérance aux pannes ? C. Hadoop et Spark utilisent tous les deux exclusive-
A. Répliquer chaque bloc de données uniquement dans ment le modèle de calcul MapReduce pour garantir
le même Datacenter pour accélérer l’accès. la tolérance aux fautes.
B. Stocker une seule copie de chaque bloc de données D. Spark reconstruit les données perdues à partir de la
pour économiser l’espace de stockage. mémoire vive ; Hadoop les récupère à partir de copies
de sauvegarde.
C. Répliquer chaque bloc de données sur trois Data-
Nodes différents selon la politique de Rack Aware- 20. Qu’est-ce qui définit l’immutabilité dans Spark ?
ness. A. Les RDD peuvent être modifiés sur place pour opti-
D. Utiliser un système de fichiers centralisé pour main- miser l’utilisation de la mémoire.
tenir toutes les copies des données. B. Les données des RDD peuvent être mises à jour en
15. Quel est le rôle des TaskTrackers dans l’architecture Ha- temps réel pour refléter les mises à jour des données
doop originale ? en continu.
C. Les transformations appliquées aux RDD modifient
A. Gérer la file d’attente des travaux et répartir les
directement l’ensemble de données d’origine.
tâches.
D. Les RDD sont des structures de données write-once,
B. Exécuter les tâches Map et Reduce attribuées par le
read-many qui ne changent pas une fois créées.
JobTracker.
C. Stocker les données utilisées et générées par les tra- 21. Quelle affirmation décrit le mieux le concept de lignée (li-
vaux MapReduce. neage) dans Spark ?
D. Surveiller l’état et la santé des DataNodes dans le A. Permet de suivre l’historique des opérations de char-
cluster. gement de données.
B. Fait référence à la séquence d’opérations appliquées
16. Comment Hadoop assure-t-il la tolérance aux pannes pour
pour reconstruire les partitions perdues.
les métadonnées stockées par le NameNode ?
C. Type particulier de partitionnement des données qui
A. Par le checkpoint régulier et la sauvegarde des méta- permet d’optimiser l’utilisation du réseau.
données à travers le Secondary NameNode.
D. Mécanisme de persistance périodique des données
B. En utilisant une base de données SQL traditionnelle sur le disque.
pour stocker toutes les métadonnées.
22. Quelle est la principale raison pour laquelle Spark utilise la
C. En répliquant les métadonnées sur chaque DataNode
lazy evaluation ?
du cluster.
D. Le NameNode ne stocke pas de métadonnées, rédui- A. Améliorer la précision de l’analyse des données en
sant ainsi le risque de perte de données. traitant les données au dernier moment.
B. Renforcer les mesures de sécurité en retardant les cal-
culs jusqu’à ce qu’ils soient absolument nécessaires.
Hadoop vs. Spark (6 points) C. Réduire la charge de calcul en n’exécutant les trans-
17. Comment les architectures de Hadoop et Spark diffèrent- formations que lorsqu’une action est appelée.
elles principalement ? D. Augmenter la vitesse de sérialisation des données en
A. Hadoop utilise un stockage en mémoire tandis que retardant tous les calculs.
Spark repose sur le stockage sur disque. 23. Comment Spark atteint-il la tolérance aux pannes avec les
B. Hadoop traite les données en micro-batches tandis RDD ?
que Spark effectue des traitements par lots. A. En utilisant le checkpointing pour sauvegarder toutes
C. Hadoop utilise le disque pour le stockage des données les données sur le disque à intervalles réguliers.
intermédiaires, tandis que Spark réalise des calculs en B. En répliquant les données sur plusieurs nœuds pour
mémoire pour accélérer le traitement. éviter les pertes de données.

2-A
C. En reconstruisant les partitions de données perdues B. Utilisation unique du traitement en streaming pour
à l’aide des informations de lignée. gérer les données.
D. En sauvegardant fréquemment l’état des calculs dans C. Intégration d’une couche de traitement par lots et
une base de données centrale. d’une couche de traitement de flux pour des résultats
24. Quelles sont les opérations qui peuvent être effectuées sur rapides et complets.
les RDD dans Spark ? D. Emploi d’un seul type de stockage de données pour
A. Les opérations incluent des transformations comme simplifier la gestion.
map et filter, et des actions comme count et collect. E. Centralisation de toutes les données et traitements
B. Seules les opérations de type SQL peuvent être effec- pour simplifier la surveillance et le débogage.
tuées sur les RDD. 30. En quoi consiste la Kappa Architecture par rapport à la
C. Les RDD prennent en charge les mutations sur place Lambda Architecture ?
telles que l’ajout ou la mise à jour. A. Elle élimine la couche de traitement par lots en faveur
D. Les RDD peuvent être directement modifiés par des d’un traitement de flux unifié.
systèmes externes pour des mises à jour en temps B. Elle introduit une troisième couche de traitement
réel. pour les données historiques.
25. Quand un développeur Spark utilise-t-il les méthodes per- C. Elle utilise des systèmes de stockage différents pour
sist() ou cache() ? le traitement en temps réel et par lots.
A. Lorsque le développeur souhaite supprimer le RDD D. Elle nécessite des capacités de calcul intensives pour
de la mémoire après utilisation. toutes les données en temps réel.
B. Lorsque le RDD doit être stocké sur le disque unique- 31. Quel est le but principal de l’architecture Data Lake ?
ment et non en mémoire.
A. Conserver des données non structurées et structurées
C. Pour optimiser la réutilisation des résultats intermé- pour des analyses diverses et approfondies.
diaires en les stockant en mémoire ou sur disque.
B. Stocker des données structurées uniquement pour
D. Pour forcer le calcul immédiat d’un RDD et rejeter sa une analyse rapide.
lignée.
C. Séparer les données en différents silos pour améliorer
26. Comment récupérer les partitions RDD perdues ? la sécurité.
A. En demandant des copies de sauvegarde aux nœuds D. Répliquer les données entre plusieurs environne-
voisins du cluster. ments pour garantir une tolérance aux pannes.
B. Par une intervention manuelle de l’utilisateur de 32. Que caractérise le mieux une architecture Lakehouse ?
Spark pour reconstruire les données perdues.
A. La combinaison des caractéristiques des data lakes
C. En utilisant les fonctions de réplication d’un système
et des data warehouses pour supporter des analyses
de fichiers distribués.
complexes.
D. Grâce aux informations de lignée, ce qui permet à
B. Un système exclusivement basé sur des data lakes
Spark de recalculer uniquement les partitions per-
sans capacités d’entreposage de données.
dues.
C. Un nouveau type de base de données graphique spé-
27. Quelle définition est la plus appropriée pour les transfor-
cialisée dans l’analyse sémantique.
mations et les actions dans Spark ?
D. L’utilisation de data warehouses traditionnels en pa-
A. Transformations : modifient les RDD ; Actions : ren- rallèle avec des data lakes.
voient les résultats finaux aux pilotes.
B. Transformations : opérations paresseuses qui défi- Pour chacune des définitions suivantes, déterminer la structure
nissent de nouveaux RDD ; Actions : déclenchent des qui s’applique le mieux : (A) : Data Lake, (B) : Data Lakehouse,
calculs et renvoient des résultats. (C) : Data Warehouse ou (D) : Toutes
C. Actions : modifient les données contenues dans les 33. Les données les plus denses
RDD ; Transformations : renvoient de nouveaux en- 34. Les données les plus structurées
sembles de données.
35. La meilleure compatibilité avec les outils de visualisation
D. Les transformations et les actions sont des termes in-
36. La meilleure flexibilité face aux différents traitements
terchangeables dans la programmation Spark.
28. Quelle affirmation décrit le mieux la fonctionnalité de per- 37. Problème de consistance de données
sistence dans Apache Spark ? 38. Capacité à voyager dans le temps
A. La conservation des RDD dans une base de données 39. Un accès optimisé à la fois aux données chaudes et froides
externe pour garantir leur durabilité. 40. Meilleure ingestion de données brutes, mais difficulté d’ex-
B. L’enregistrement automatique des RDD sur le disque traction d’informations
après chaque transformation.
C. La possibilité de maintenir les RDD en mémoire entre
différentes actions pour améliorer les performances. ♣ Bon travail
D. Le stockage systématique des RDD sur un système de
fichiers distribué pour une utilisation ultérieure.

Architectures Big Data (6 points)


29. Quelles sont les caractéristiques distinctives de la Lambda
Architecture ? (plusieurs réponses possibles)
A. Séparation des données en couches chaudes et froides
pour une analyse efficace.

3-A

Vous aimerez peut-être aussi