TRAITEMENT DES METADONNEES IFTIC’SUP M1
QCM BIG DATA, HaMapReduce
1. Hive supporte également les extensions personnalisées écrites en ___.
a. C++
b. C
c. Java
d. C#
2. Indiquez l’affirmation incorrecte:
a. Elastic MapReduce (EMR) est l’offre Hadoop intégrée de Facebook.
b. Amazon Web Service Elastic MapReduce (EMR) est l’offre Hadoop intégrée
d’Amazon.
c. Scalding est une API Scala au-dessus de Cascading qui supprime la plupart des
formalités Java.
d. Toutes les réponses sont vraies
3. _______ est un modèle informatique polyvalent et un système d’exécution pour
l’analyse de données distribuées.
a. Drill
b. Mapreduce
c. Oozie
d. Aucune de ces réponses
4. Le langage de script Pig Latin est non seulement un langage de flux de données de plus
haut niveau, mais il possède également des opérateurs similaires à ______.
a. XML
b. JSON
c. SQL
d. Toutes les réponses sont vraies
5. _______ Les jobs sont optimisés pour l’évolutivité mais pas pour la latence.
a. Hive
b. Oozie
c. Drill
d. Mapreduce
6. ______ est un framework permettant d’effectuer des appels de procédure à distance et
de sérialiser des données.
a. Drill
b. BigTop
c. Avro
d. Chukwa
1
TRAITEMENT DES METADONNEES IFTIC’SUP M1
. Quelle est la base de données NoSQL la plus populaire pour le stockage évolutif de
données volumineuses avec Hadoop ?
a. Cassandra
b. MongoDB
c. Hbase
d. Oracle
8. HBase fournit des capacités similaires à ___________ au-dessus de Hadoop et HDFS.
a. Bigtable
b. BigTop
c. TopTable
d. Oracle
9. Indiquez l’affirmation incorrecte.
a. Les solutions de stockage évolutives pour Hadoop d’EMC Isilon combinent une plate-
forme de stockage puissante, simple et très efficace.
b. L’intégration native HDFS d’Isilon vous évite d’avoir à investir dans une infrastructure
Hadoop distincte.
c. Les systèmes NoSQL fournissent un accès à haute latence et s’adaptent à un nombre
réduit d’utilisateurs simultanés.
d. Aucune de ces réponses
10. ______ sont hautement résilients et éliminent le risque de point de défaillance isolé des
déploiements Hadoop traditionnels.
a. Solutions Isilon
b. AWS
c. EMR
d. Aucune de ces réponses
11. Un nœud ________ agit en tant qu’esclave et est responsable de l’exécution d’une tâche
qui lui est assignée par le JobTracker.
a. MapReduce
b. Mapper
c. TaskTracker
d. JobTracker
12. Indiquez l’affirmation correcte.
a. MapReduce essaie de placer les données et les calculs de façon aussi proche que
possible.
b. La tâche Map dans MapReduce est exécutée à l’aide de la fonction Mapper().
c. La tâche Reduce de MapReduce est exécutée à l’aide de la fonction Map().
2
TRAITEMENT DES METADONNEES IFTIC’SUP M1
d. Aucune de ces réponses
13. La partie ______ de MapReduce est responsable du traitement d’un ou plusieurs
morceaux de données et de la production des résultats de sortie.
a. Mapper
b. Map
c. Reduce
d. Aucune de ces réponses
14. Indiquez l’affirmation incorrecte.
a. Une tâche MapReduce divise généralement l’ensemble des données d’entrée en
morceaux indépendants qui sont traités par les tâches Map de manière totalement
parallèle.
b. Le framework MapReduce fonctionne exclusivement sur des paires <clé, valeur>.
c. Les applications mettent généralement en œuvre les interfaces Mapper et Reducer pour
fournir les méthodes de map et de reduce.
d. Aucune de ces réponses
15. Bien que le framework Hadoop soit implémenté en Java, les applications MapReduce
n’ont pas besoin d’être écrites en ____________.
a. Java
b. C
c. C#
d. Aucune de ces réponses
16. ________ est un utilitaire qui permet aux utilisateurs de créer et d’exécuter des tâches
avec n’importe quel exécutable comme mapper et/ou reducer.
a. Hadoop Strdata
b. Hadoop Streaming
c. Hadoop Stream
d. Aucune de ces réponses
17. Le nombre de maps est généralement déterminé par la taille totale des ________
a. Entrées
b. Sorties
c. Tâches
d. Aucune de ces réponses
18. _________ est le partitionneur par défaut pour le partitionnement de l’espace des clés.
a. HashPar
b. Partitioner
c. HashPartitioner
d. Aucune de ces réponses
3
TRAITEMENT DES METADONNEES IFTIC’SUP M1
19. L’exécution d’un programme ___________ implique l’exécution de tâches de mapping
sur plusieurs ou tous les nœuds de notre cluster.
a. MapReduce
b. Map
c. Reducer
d. Aucune de ces réponses
20. Quels sont les composants les plus critiques du Big Data ?
a. MapReduce
b. YARN
c. HDFS
d. Tous les composants ci-dessus
21. Indiquez l’affirmation correcte.
a. Hadoop est un environnement idéal pour extraire et transformer de petits volumes de
données.
b. Hadoop stocke les données dans HDFS et prend en charge la
compression/décompression des données.
c. Le framework Giraph est moins utile qu’une tâche MapReduce pour résoudre les
problèmes de graphes et d’apprentissage automatique.
d. Aucune de ces réponses
22. Sous quelle licence Hadoop est-il distribué ?
a. Licence Apache 2.0
b. Mozilla Public License
c. Shareware
d. Commerciale
23. En quel langage Hadoop a-t-il été écrit ?
a. Python
b. Java
c. Perl
d. C++
24. Lequel des éléments suivants est produit par Hadoop ?
a. Système de fichiers distribués
b. Service de messages Java
c. JAX-RS
d. Système de gestion de bases de données relationnelles
25. Sur laquelle des plateformes suivantes Hadoop fonctionne-t-il ?
a. Debian
4
TRAITEMENT DES METADONNEES IFTIC’SUP M1
b. Unix
c. Multiplateformes
d. Android
26. Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite
donc pas de stockage _________ sur les hôtes.
a. ZFS
b. RAID
c. Niveaux RAID standard
d. Système d’exploitation
27. Au-dessus des systèmes de fichiers se trouve le moteur __________, qui consiste en un
traqueur de tâches, auquel les applications clientes soumettent des tâches MapReduce.
a. Facebook
b. Google
c. MapReduce
d. Programmation fonctionnelle
28. La liste Hadoop comprend la base de données HBase, le système Apache Mahout
__________ et les opérations matricielles.
a. Intelligence artificielle
b. Machine learning
c. Classification statistique
d. Reconnaissance des formes
29. _____ est une plateforme permettant de construire des flux de données pour le
traitement et l’analyse de grands ensembles de données par extraction, transformation et
chargement (ETL).
a. Hadoop
b. Pig
c. Hive
d. Oozie
30. Indiquez l’affirmation correcte:
a. Hive n’est pas une base de données relationnelle, mais un moteur de requête qui prend
en charge les parties du langage SQL spécifiques à l’interrogation des données.
b. Hive est une base de données relationnelle avec support SQL
c. Pig est une base de données relationnelle avec un support SQL
d. Toutes les réponses sont vraies
31. Les données d’une taille de ____ octets sont appelées Big Data.
5
TRAITEMENT DES METADONNEES IFTIC’SUP M1
a. Giga
b. Meta
c. Peta
d. Tera
32. ________ est une collection de données dont le volume est énorme, mais qui croît de
manière exponentielle avec le temps.
a. Fichier
b. Base de données
c. Cloud
d. Big Data
33. Quels sont les 7 V du Big Data ?
a. Véracité, Visualisation, et Valeur.
b. Variété, variabilité
c. Volume, vélocité
d. Toutes les réponses sont vraies
34. Il existe _______ formes de Big Data.
a. 7
b. 3
c. 6
d. 1
35. Quelle société a développé Apache Kafka ?
a. Microsoft
b. Amazon
c. LinkedIn
d. Google
36. En quelle année Apache Kafka a-t-il été développé ?
a. 2022
b. 2009
c. 2012
d. 2011
37. Les types de Big Data sont _________.
a. Données non structurées
b. Données structurées
c. Données semi-structurées
d. Toutes les réponses sont vraies
38. ________ possède le plus grand cluster Hadoop du monde.
6
TRAITEMENT DES METADONNEES IFTIC’SUP M1
a. Google
b. LinkedIn
c. Facebook
d. IBM
39. Les données non traitées ou les données traitées sont des observations ou des mesures
qui peuvent être exprimées sous forme de texte, de chiffres ou d’autres types de médias.
A Vrai
B Faux
40. En informatique, ____ est une représentation symbolique des faits ou de concepts à
partir desquels des informations peuvent être obtenues avec un degré raisonnable de
confiance.
a. Connaissance
b. Données
c. Programme
d. Algorithme
41. Dans les environnements Big Data, la vélocité désigne ___________
a. Les données peuvent arriver à grande vitesse
b. Des ensembles de données énormes peuvent s’accumuler dans des périodes très courtes.
c. La vélocité des données se traduit par le temps qu’il faut pour que les données soient
traitées.
d. Toutes les réponses ci-dessus
42. Dans les environnements Big Data, la variété des données comprend ___________
a. Multiples formats et types de données
b. Comprend des données structurées sous la forme de transactions financières.
c. des données semi-structurées sous forme d’e-mails et des données non structurées sous
forme d’images.
d. Toutes les réponses ci-dessus
43. Dans l’environnement du Big Data, la véracité des données fait référence à la
___________
a. la qualité ou la fidélité des données.
b. La taille importante des données qui ne peuvent pas être traitées
c. La petite taille des données qui peuvent être facilement traitées
d. Toutes les réponses ci-dessus
44. Lesquels des éléments suivants sont des avantages du traitement des Big Data ?
a. Réduction des coûts
b. Réduction du temps
c. Décisions commerciales plus intelligentes
7
TRAITEMENT DES METADONNEES IFTIC’SUP M1
d. Tous les avantages mentionnés ci-dessus
45. Les données structurées se conforment à un modèle ou à un schéma de données et sont
souvent stockées sous forme de tableaux.
A Vrai
B Faux
46. Les données qui ne sont pas conformes à un modèle de données ou à un schéma de
données sont connues sous le nom de ______.
a. Données structurées
b. Données non structurées
c. Données semi-structurées
d. Tout ce qui est mentionné ci-dessus
47. Parmi les éléments suivants, lesquels sont/ne sont pas des technologies de Big Data ?
a. Apache Hadoop
b. Apache Spark
c. Apache Kafka
d. Apache Pytarch
48. ______ implique l’exécution simultanée de plusieurs sous-tâches qui, ensemble,
constituent une tâche plus importante.
a. Traitement parallèle des données
b. Traitement simple
c. Traitement de données multiples
d. Aucun des éléments mentionnés ci-dessus
49. Parmi les éléments suivants, lesquels peuvent être considérés comme une source de
données non structurées?
a. Facebook
b. Twitter
c. Pages Web
d. Tout ce qui est mentionné ci-dessus
50. Parmi les éléments suivants, lesquels constituent un exemple de données non
structurées:
a. Numéro de matricule du voiture, marque, modèle
b. Vidéos
c. Fichiers audio
d. Les deux B et C
51. L’extensibilité, l’élasticité, la mise en commun des ressources, le faible coût et la
tolérance aux pannes sont les caractéristiques de _________.
8
TRAITEMENT DES METADONNEES IFTIC’SUP M1
a. Cloud computing
b. Power BI
c. Docker
d. Big Data
52. Parmi les éléments suivants, lequel est le modèle de déploiement du cloud:
a. Cloud public
b. Cloud privé
c. Cloud hybride
d. Tous les modèles mentionnés ci-dessus
53. Qu’est-ce qu’une machine virtuelle (VM) ?
a. Représentation virtuelle d’un ordinateur physique
b. Représentation virtuelle d’un ordinateur logique
c. Intégration d’un système virtuel
d. Tout ce qui est mentionné ci-dessus
54. MongoDB est une base de données ____.
a. SQL
b. SGBD
c. NoSQL
d. SGBDR
55. Le big data concerne des informations de grand volume, de grande vitesse et de grande
variété:
a. Vrai
b. Faux
65. L’interprétation des données se réfère à ____.
a. Processus consistant à donner un sens aux données
b. Convertir le texte en informations pertinentes
c. Conclusion efficace
d. Tous les éléments mentionnés ci-dessus
57. La signification des métadonnées est de fournir des informations sur les
caractéristiques et la structure d’un ensemble de données.
A Vrai
B Faux
9
TRAITEMENT DES METADONNEES IFTIC’SUP M1
58. Comment fonctionne la distribution de fichiers sur HDFS ?
Répartition en fonction de la taille des fichiers sur chaque nœuds du cluster.
Répartition en blocs répliqués sur les nœuds du cluster.
Répartition en nœuds répliqués sur les blocs du cluster.
Répartition en fonction des choix de l'utilisateur au moment de l'upload.
59. Quel est le rôle du NameNode ?
Écrire ou lire les données sur les DataNodes.
Vérifier la disponibilité des données sur les DataNodes.
Remplacer un DataNode si un d'entre eux devient indisponible.
Administrer les transactions en autorisant ou non la lecture / écriture des fichiers.
10
TRAITEMENT DES METADONNEES IFTIC’SUP M1
MapReduce : WordCount
On souhaite déterminer pour un travail de recherche quels sont les mots les plus utilisés
au sein de ce texte. Les données d'entrée sont constituées du contenu du texte.
« Il met en rouge les éléments du tableau »
« Après avoir effectué un coloriage rouge, il met sa blouse rouge sur la table »
« Il let ses chaussures rouges et se dirigent vers la porte »
1. Déterminer les ensembles « clé, valeur » de l’algorithme Mapreduce.
2. Quel est le nombre total de mot dans ce texte ?
11