Département d’informatique Module : Requêtes conjonctives
Année universitaire : 2023/2024 Spécialité/Niveau : Master Génie Logiciel (S2)
Corrigé-Type EMD
1. HDFS est un système de fichiers distribué qui doit être déployé sur une machine commerciale
désignée. Vrai Faux (1pt)
2. Parce que HDFS a plusieurs copies, il n'y a pas de problème de point unique avec NameNode.
Vrai Faux (1pt)
3. La haute disponibilité des données dans un cluster Hadoop est garantie par : (1pt)
Le stockage des mêmes données sur plusieurs nœuds
La répartition des rôles en master et slaves sur les nœuds
La croissance du volume des données
4. Comment fonctionne la distribution de fichiers sur HDFS ? (1pt)
Répartition en fonction de la taille des fichiers sur chaque nœud du cluster
Répartition en blocs répliqués sur les nœuds du cluster
Répartition en nœuds répliqués sur les blocs du cluster
5. Quel est le rôle du NameNode ? (1pt)
Écrire ou lire les données sur les DataNodes
Vérifier la disponibilité des données sur les DataNodes
Remplacer un DataNode si un d'entre eux devient indisponible
6. Dans quel mode tous les démons s'exécutent sur une seule machine comme un processus java
individuel ? (1pt)
Mode local
Pseudo-distribué
Totalement distribué
7. Hadoop utilise plusieurs langages grâce à : (1pt)
Hadoop steaming
Uniquement le langage Java
Pig
8. Lequel des éléments suivants n'est pas un avantage du mécanisme de réplique des données ? (1pt)
Vérifier facilement les erreurs de données
Garantir la fiabilité des données
Économiser l'espace de stockage
9. Quels sont les avantages spécifiques d'un système de fichiers distribué ? (1pt)
Tolérance élevée aux pannes
Stockage important
Évolutivité des données
10. Indiquez l'affirmation correcte (1pt)
Les documents peuvent contenir de nombreuses paires clé-valeur différentes, ou des paires clé-réseau, ou
même des documents imbriqués
MongoDB dispose de pilotes officiels pour une variété de langages de programmation et
d'environnements de développement populaires
Par rapport aux bases de données relationnelles, les bases de données NoSQL sont plus évolutives et
offrent des performances supérieures
Toutes ces réponses
11. Indiquez l'affirmation erronée (1pt)
Les bases de données non relationnelles exigent que des schémas soient définis avant que vous puissiez
ajouter des données.
Les bases de données NoSQL sont conçues pour permettre l'insertion de données sans schéma prédéfini.
Toutes ces réponses
12. Quel est l'avantage principal de l'utilisation de MapReduce dans le traitement des données
massives ? (1pt)
La capacité à gérer des données structurées uniquement
La possibilité de distribuer le traitement sur un cluster de machines
Une vitesse de traitement plus lente par rapport aux bases de données traditionnelles.
L'incapacité à traiter des données en parallèle.
13. Pourquoi le partitionnement des données est-il important dans MapReduce ? (1pt)
1/2
Pour garantir que toutes les données sont traitées par le même Reducer.
Pour éviter la perte de données lors du transfert entre les Mappers et les Reducers.
Pour distribuer équitablement la charge de traitement sur différents nœuds.
Pour filtrer les données selon des critères prédéfinis avant la réduction.
14. Quel avantage le stockage en blocs offre-t-il dans un système comme HDFS ? (1pt)
Il permet une récupération rapide des fichiers en cas de panne d'un nœud.
Il réduit le temps nécessaire pour lire ou écrire de gros fichiers en les divisant en parties gérables.
Il garantit la redondance des données pour une haute disponibilité.
Il facilite l'indexation des données pour des opérations de recherche rapides
15. On considère le dataset contenant les lignes suivantes : (2pts)
("Alice", "Bob"), ("Bob", "Charlie"), ("Alice", "David"), ("Eve", "Alice"), ("David", "Alice"), ("Bob",
"Eve"), ("Charlie", "Bob"), ("David", "Eve")
et les codes mapreduce :
Map Reduce
Pour chaque ligne (U1, U2) du bloc de données :
Pour chaque U :
Retourner (U1, U2) A = {} ;
Retourner (U2, U1) Pour chaque valeur associée à l'utilisateur :
Si la valeur n'est pas déjà dans A Ajouter la valeur à A
Retourner (U, A)
Donner le résultat renvoyé par les codes MapReduce :
("Alice", ["Bob", "David", "Eve"])
("Bob", ["Alice", "Charlie", "Eve"])
("Charlie", ["Bob"])
("David", ["Alice", "Eve"])
("Eve", ["Alice", "Bob", "David"])
16. Exemple courant de base de données NoSQL utilisée pour la gestion de données de graphes ? (1pt)
MongoDB
Cassandra
Neo4j
Redis
17. Quel avantage majeur les bases de données orientées documents offrent-elles par rapport aux bases
de données relationnelles dans le contexte des applications web modernes ? (1pt)
Elles sont plus adaptées pour les applications nécessitant des transactions complexes
Elles permettent de stocker des données semi-structurées de manière flexible
Elles offrent une meilleure compatibilité avec le langage SQL
Elles ont une capacité de stockage plus limitée que les bases de données relationnelles
18. Quel est l'un des principaux défis rencontrés lors de la mise en œuvre de bases de données NoSQL
? (1pt)
La complexité des requêtes de base de données
La nécessité d'une structure de données rigide
La gestion de la cohérence des données sur des systèmes distribués
La limitation de la scalabilité verticale.
19. Hadoop 1.0 possède les démons : (1pt)
NameNode, DataNode, TaskTracker, JobTracker, SecondaryNamenode
NameNode, DataNode, TaskTracker, SecondaryNamenode,ResourceManager
NameNode, DataNode , ApplicationMaster , NodeManager, JobTracker
2/2