0% ont trouvé ce document utile (0 vote)
32 vues11 pages

Traitement Des Metadonnees Iftic'Sup M1

Le document est un questionnaire à choix multiples (QCM) sur le Big Data et le traitement des métadonnées, abordant des concepts clés tels que Hive, MapReduce, HDFS, et les bases de données NoSQL. Il contient 59 questions qui testent les connaissances sur les technologies et les principes fondamentaux du Big Data. Les questions portent sur des sujets variés, y compris les langages de programmation, les frameworks, et les caractéristiques des données.

Transféré par

kabemarianne
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues11 pages

Traitement Des Metadonnees Iftic'Sup M1

Le document est un questionnaire à choix multiples (QCM) sur le Big Data et le traitement des métadonnées, abordant des concepts clés tels que Hive, MapReduce, HDFS, et les bases de données NoSQL. Il contient 59 questions qui testent les connaissances sur les technologies et les principes fondamentaux du Big Data. Les questions portent sur des sujets variés, y compris les langages de programmation, les frameworks, et les caractéristiques des données.

Transféré par

kabemarianne
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TRAITEMENT DES METADONNEES IFTIC’SUP M1

QCM BIG DATA, HaMapReduce

1. Hive supporte également les extensions personnalisées écrites en ___.

a. C++
b. C
c. Java
d. C#

2. Indiquez l’affirmation incorrecte:

a. Elastic MapReduce (EMR) est l’offre Hadoop intégrée de Facebook.


b. Amazon Web Service Elastic MapReduce (EMR) est l’offre Hadoop intégrée
d’Amazon.
c. Scalding est une API Scala au-dessus de Cascading qui supprime la plupart des
formalités Java.
d. Toutes les réponses sont vraies

3. _______ est un modèle informatique polyvalent et un système d’exécution pour


l’analyse de données distribuées.

a. Drill
b. Mapreduce
c. Oozie
d. Aucune de ces réponses

4. Le langage de script Pig Latin est non seulement un langage de flux de données de plus
haut niveau, mais il possède également des opérateurs similaires à ______.

a. XML
b. JSON
c. SQL
d. Toutes les réponses sont vraies

5. _______ Les jobs sont optimisés pour l’évolutivité mais pas pour la latence.

a. Hive
b. Oozie
c. Drill
d. Mapreduce

6. ______ est un framework permettant d’effectuer des appels de procédure à distance et


de sérialiser des données.

a. Drill
b. BigTop
c. Avro
d. Chukwa

1
TRAITEMENT DES METADONNEES IFTIC’SUP M1

. Quelle est la base de données NoSQL la plus populaire pour le stockage évolutif de
données volumineuses avec Hadoop ?

a. Cassandra
b. MongoDB
c. Hbase
d. Oracle

8. HBase fournit des capacités similaires à ___________ au-dessus de Hadoop et HDFS.

a. Bigtable

b. BigTop

c. TopTable

d. Oracle

9. Indiquez l’affirmation incorrecte.

a. Les solutions de stockage évolutives pour Hadoop d’EMC Isilon combinent une plate-
forme de stockage puissante, simple et très efficace.
b. L’intégration native HDFS d’Isilon vous évite d’avoir à investir dans une infrastructure
Hadoop distincte.
c. Les systèmes NoSQL fournissent un accès à haute latence et s’adaptent à un nombre
réduit d’utilisateurs simultanés.
d. Aucune de ces réponses

10. ______ sont hautement résilients et éliminent le risque de point de défaillance isolé des
déploiements Hadoop traditionnels.

a. Solutions Isilon
b. AWS
c. EMR
d. Aucune de ces réponses

11. Un nœud ________ agit en tant qu’esclave et est responsable de l’exécution d’une tâche
qui lui est assignée par le JobTracker.

a. MapReduce
b. Mapper
c. TaskTracker
d. JobTracker

12. Indiquez l’affirmation correcte.

a. MapReduce essaie de placer les données et les calculs de façon aussi proche que
possible.
b. La tâche Map dans MapReduce est exécutée à l’aide de la fonction Mapper().
c. La tâche Reduce de MapReduce est exécutée à l’aide de la fonction Map().

2
TRAITEMENT DES METADONNEES IFTIC’SUP M1

d. Aucune de ces réponses

13. La partie ______ de MapReduce est responsable du traitement d’un ou plusieurs


morceaux de données et de la production des résultats de sortie.

a. Mapper
b. Map
c. Reduce
d. Aucune de ces réponses

14. Indiquez l’affirmation incorrecte.

a. Une tâche MapReduce divise généralement l’ensemble des données d’entrée en


morceaux indépendants qui sont traités par les tâches Map de manière totalement
parallèle.
b. Le framework MapReduce fonctionne exclusivement sur des paires <clé, valeur>.
c. Les applications mettent généralement en œuvre les interfaces Mapper et Reducer pour
fournir les méthodes de map et de reduce.
d. Aucune de ces réponses

15. Bien que le framework Hadoop soit implémenté en Java, les applications MapReduce
n’ont pas besoin d’être écrites en ____________.

a. Java
b. C
c. C#
d. Aucune de ces réponses

16. ________ est un utilitaire qui permet aux utilisateurs de créer et d’exécuter des tâches
avec n’importe quel exécutable comme mapper et/ou reducer.

a. Hadoop Strdata
b. Hadoop Streaming
c. Hadoop Stream
d. Aucune de ces réponses

17. Le nombre de maps est généralement déterminé par la taille totale des ________

a. Entrées
b. Sorties
c. Tâches
d. Aucune de ces réponses

18. _________ est le partitionneur par défaut pour le partitionnement de l’espace des clés.

a. HashPar
b. Partitioner
c. HashPartitioner
d. Aucune de ces réponses

3
TRAITEMENT DES METADONNEES IFTIC’SUP M1

19. L’exécution d’un programme ___________ implique l’exécution de tâches de mapping


sur plusieurs ou tous les nœuds de notre cluster.

a. MapReduce
b. Map
c. Reducer
d. Aucune de ces réponses

20. Quels sont les composants les plus critiques du Big Data ?

a. MapReduce
b. YARN
c. HDFS
d. Tous les composants ci-dessus

21. Indiquez l’affirmation correcte.


a. Hadoop est un environnement idéal pour extraire et transformer de petits volumes de
données.
b. Hadoop stocke les données dans HDFS et prend en charge la
compression/décompression des données.
c. Le framework Giraph est moins utile qu’une tâche MapReduce pour résoudre les
problèmes de graphes et d’apprentissage automatique.
d. Aucune de ces réponses

22. Sous quelle licence Hadoop est-il distribué ?

a. Licence Apache 2.0


b. Mozilla Public License
c. Shareware
d. Commerciale

23. En quel langage Hadoop a-t-il été écrit ?

a. Python
b. Java
c. Perl
d. C++

24. Lequel des éléments suivants est produit par Hadoop ?

a. Système de fichiers distribués


b. Service de messages Java
c. JAX-RS
d. Système de gestion de bases de données relationnelles

25. Sur laquelle des plateformes suivantes Hadoop fonctionne-t-il ?

a. Debian

4
TRAITEMENT DES METADONNEES IFTIC’SUP M1

b. Unix
c. Multiplateformes
d. Android

26. Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite
donc pas de stockage _________ sur les hôtes.

a. ZFS
b. RAID
c. Niveaux RAID standard
d. Système d’exploitation

27. Au-dessus des systèmes de fichiers se trouve le moteur __________, qui consiste en un
traqueur de tâches, auquel les applications clientes soumettent des tâches MapReduce.

a. Facebook
b. Google
c. MapReduce
d. Programmation fonctionnelle

28. La liste Hadoop comprend la base de données HBase, le système Apache Mahout
__________ et les opérations matricielles.

a. Intelligence artificielle
b. Machine learning
c. Classification statistique
d. Reconnaissance des formes

29. _____ est une plateforme permettant de construire des flux de données pour le
traitement et l’analyse de grands ensembles de données par extraction, transformation et
chargement (ETL).

a. Hadoop
b. Pig
c. Hive
d. Oozie

30. Indiquez l’affirmation correcte:

a. Hive n’est pas une base de données relationnelle, mais un moteur de requête qui prend
en charge les parties du langage SQL spécifiques à l’interrogation des données.
b. Hive est une base de données relationnelle avec support SQL
c. Pig est une base de données relationnelle avec un support SQL
d. Toutes les réponses sont vraies

31. Les données d’une taille de ____ octets sont appelées Big Data.

5
TRAITEMENT DES METADONNEES IFTIC’SUP M1

a. Giga
b. Meta
c. Peta
d. Tera

32. ________ est une collection de données dont le volume est énorme, mais qui croît de
manière exponentielle avec le temps.

a. Fichier
b. Base de données
c. Cloud
d. Big Data

33. Quels sont les 7 V du Big Data ?

a. Véracité, Visualisation, et Valeur.


b. Variété, variabilité
c. Volume, vélocité
d. Toutes les réponses sont vraies

34. Il existe _______ formes de Big Data.

a. 7
b. 3
c. 6
d. 1

35. Quelle société a développé Apache Kafka ?

a. Microsoft
b. Amazon
c. LinkedIn
d. Google

36. En quelle année Apache Kafka a-t-il été développé ?

a. 2022
b. 2009
c. 2012
d. 2011

37. Les types de Big Data sont _________.

a. Données non structurées


b. Données structurées
c. Données semi-structurées
d. Toutes les réponses sont vraies

38. ________ possède le plus grand cluster Hadoop du monde.

6
TRAITEMENT DES METADONNEES IFTIC’SUP M1

a. Google
b. LinkedIn
c. Facebook
d. IBM

39. Les données non traitées ou les données traitées sont des observations ou des mesures
qui peuvent être exprimées sous forme de texte, de chiffres ou d’autres types de médias.

A Vrai

B Faux

40. En informatique, ____ est une représentation symbolique des faits ou de concepts à
partir desquels des informations peuvent être obtenues avec un degré raisonnable de
confiance.

a. Connaissance
b. Données
c. Programme
d. Algorithme

41. Dans les environnements Big Data, la vélocité désigne ___________

a. Les données peuvent arriver à grande vitesse


b. Des ensembles de données énormes peuvent s’accumuler dans des périodes très courtes.
c. La vélocité des données se traduit par le temps qu’il faut pour que les données soient
traitées.
d. Toutes les réponses ci-dessus

42. Dans les environnements Big Data, la variété des données comprend ___________

a. Multiples formats et types de données


b. Comprend des données structurées sous la forme de transactions financières.
c. des données semi-structurées sous forme d’e-mails et des données non structurées sous
forme d’images.
d. Toutes les réponses ci-dessus

43. Dans l’environnement du Big Data, la véracité des données fait référence à la
___________

a. la qualité ou la fidélité des données.


b. La taille importante des données qui ne peuvent pas être traitées
c. La petite taille des données qui peuvent être facilement traitées
d. Toutes les réponses ci-dessus

44. Lesquels des éléments suivants sont des avantages du traitement des Big Data ?

a. Réduction des coûts


b. Réduction du temps
c. Décisions commerciales plus intelligentes

7
TRAITEMENT DES METADONNEES IFTIC’SUP M1

d. Tous les avantages mentionnés ci-dessus

45. Les données structurées se conforment à un modèle ou à un schéma de données et sont


souvent stockées sous forme de tableaux.

A Vrai

B Faux

46. Les données qui ne sont pas conformes à un modèle de données ou à un schéma de
données sont connues sous le nom de ______.

a. Données structurées
b. Données non structurées
c. Données semi-structurées
d. Tout ce qui est mentionné ci-dessus

47. Parmi les éléments suivants, lesquels sont/ne sont pas des technologies de Big Data ?

a. Apache Hadoop
b. Apache Spark
c. Apache Kafka
d. Apache Pytarch

48. ______ implique l’exécution simultanée de plusieurs sous-tâches qui, ensemble,


constituent une tâche plus importante.

a. Traitement parallèle des données


b. Traitement simple
c. Traitement de données multiples
d. Aucun des éléments mentionnés ci-dessus

49. Parmi les éléments suivants, lesquels peuvent être considérés comme une source de
données non structurées?

a. Facebook
b. Twitter
c. Pages Web
d. Tout ce qui est mentionné ci-dessus

50. Parmi les éléments suivants, lesquels constituent un exemple de données non
structurées:

a. Numéro de matricule du voiture, marque, modèle


b. Vidéos
c. Fichiers audio
d. Les deux B et C

51. L’extensibilité, l’élasticité, la mise en commun des ressources, le faible coût et la


tolérance aux pannes sont les caractéristiques de _________.

8
TRAITEMENT DES METADONNEES IFTIC’SUP M1

a. Cloud computing
b. Power BI
c. Docker
d. Big Data

52. Parmi les éléments suivants, lequel est le modèle de déploiement du cloud:

a. Cloud public
b. Cloud privé
c. Cloud hybride
d. Tous les modèles mentionnés ci-dessus

53. Qu’est-ce qu’une machine virtuelle (VM) ?

a. Représentation virtuelle d’un ordinateur physique


b. Représentation virtuelle d’un ordinateur logique
c. Intégration d’un système virtuel
d. Tout ce qui est mentionné ci-dessus

54. MongoDB est une base de données ____.

a. SQL
b. SGBD
c. NoSQL
d. SGBDR

55. Le big data concerne des informations de grand volume, de grande vitesse et de grande
variété:

a. Vrai
b. Faux

65. L’interprétation des données se réfère à ____.

a. Processus consistant à donner un sens aux données


b. Convertir le texte en informations pertinentes
c. Conclusion efficace
d. Tous les éléments mentionnés ci-dessus

57. La signification des métadonnées est de fournir des informations sur les
caractéristiques et la structure d’un ensemble de données.

A Vrai

B Faux

9
TRAITEMENT DES METADONNEES IFTIC’SUP M1

58. Comment fonctionne la distribution de fichiers sur HDFS ?

Répartition en fonction de la taille des fichiers sur chaque nœuds du cluster.


Répartition en blocs répliqués sur les nœuds du cluster.
Répartition en nœuds répliqués sur les blocs du cluster.
Répartition en fonction des choix de l'utilisateur au moment de l'upload.

59. Quel est le rôle du NameNode ?

Écrire ou lire les données sur les DataNodes.


Vérifier la disponibilité des données sur les DataNodes.
Remplacer un DataNode si un d'entre eux devient indisponible.
Administrer les transactions en autorisant ou non la lecture / écriture des fichiers.

10
TRAITEMENT DES METADONNEES IFTIC’SUP M1

MapReduce : WordCount

On souhaite déterminer pour un travail de recherche quels sont les mots les plus utilisés
au sein de ce texte. Les données d'entrée sont constituées du contenu du texte.
« Il met en rouge les éléments du tableau »
« Après avoir effectué un coloriage rouge, il met sa blouse rouge sur la table »
« Il let ses chaussures rouges et se dirigent vers la porte »

1. Déterminer les ensembles « clé, valeur » de l’algorithme Mapreduce.


2. Quel est le nombre total de mot dans ce texte ?

11

Vous aimerez peut-être aussi