0% ont trouvé ce document utile (0 vote)

64 vues15 pages

Devoire Big Data

Le document présente un QCM de 100 questions sur les Big Data, NoSQL et les traitements, structuré en trois thèmes principaux : Introduction aux Big Data, Bases de données NoSQL et Traitements et architectures Big Data. Chaque question est accompagnée de plusieurs choix de réponses, dont certaines sont marquées comme correctes. Le contenu couvre des concepts clés tels que les 5V du Big Data, les caractéristiques des bases NoSQL et les types de traitements de données.

Transféré par

rayenchafei8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

64 vues15 pages

Devoire Big Data

Transféré par

rayenchafei8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Devoir : QCM de 100 questions sur les Big Data, NoSQL et traitements<

Thème 1 : Introduction aux Big Data

1. Que représentent les 5V du Big Data ?

o A) Volume, Vitesse, Variété, Véracité, Valeur (Réponse correcte)
o B) Variété, Valeur, Vision, Vitesse, Volume
o C) Valeur, Vision, Véracité, Vigilance, Volume
o D) Variété, Vision, Vigilance, Valeur, Vitesse
2. Quel pourcentage des données mondiales sont non structurées ?
o A) 70%
o B) 80%
o C) 90% (Réponse correcte)
o D) 95%
3. Quel est l’objectif principal des Big Data dans le secteur médical ?
o A) Identifier les patients à haut risque
o B) Créer de nouveaux traitements
o C) Détecter des conditions critiques pour intervenir à temps (Réponse
correcte)
o D) Améliorer les consultations en ligne
4. Quel élément n’est pas une source de données Big Data ?
o A) Sites web
o B) Bases de données
o C) Téléviseurs (Réponse correcte)
o D) Smartphones
5. Qu’est-ce qui caractérise la véracité des données Big Data ?
o A) La vitesse d’arrivée des données
o B) La qualité et la fiabilité des données (Réponse correcte)
o C) La capacité à traiter des données massives
o D) La structure des données

...

Thème 2 : Bases de données NoSQL

21. Quelle caractéristique distingue une base de données NoSQL ?

 A) Utilisation obligatoire d’un schéma fixe

 B) Absence de relation entre les tables
 C) Flexibilité et évolutivité (Réponse correcte)
 D) Nécessité de normalisation

22. Le modèle « Clé-Valeur » est associé à :

 A) Des graphes
 B) Des documents JSON
 C) Une structure simple pour des opérations rapides (Réponse correcte)
 D) Des colonnes fixes
23. Qu’est-ce que HBase ?

 A) Une base de données orientée graphes

 B) Une base NoSQL orientée colonnes (Réponse correcte)
 C) Un outil de traitement en batch
 D) Une base relationnelle avancée

...

Thème 3 : Traitements et architectures Big Data

61. Quel type de traitement traite des données collectées sur une longue période ?

 A) Traitement en temps réel

 B) Traitement en streaming
 C) Traitement par lots (Réponse correcte)
 D) Micro-batching

62. Quel outil est utilisé pour le traitement en streaming ?

 A) Hadoop MapReduce
 B) Apache Kafka (Réponse correcte)
 C) Excel
 D) PostgreSQL

63. Quelle est une caractéristique clé de l’architecture Lambda ?

 A) Ne traite que des données historiques

 B) Combine traitement par lots et temps réel (Réponse correcte)
 C) Est remplacée par Kappa
 D) Fonctionne uniquement avec des bases relationnelles

...

QCM : Introduction aux Big Data

1. Quel est le volume de données généré chaque jour dans le monde ?

o A) 2,5 milliards d’octets
o B) 2,5 millions d’octets
o C) 2,5 trillions d’octets (Réponse correcte)
o D) 2,5 quadrillions d’octets

2. Quel pourcentage des données mondiales ont été créées au cours des dernières
années ?
o A) 70%
o B) 80%
o C) 90% (Réponse correcte)
o D) 95%

3. Quel pourcentage des données générées sont non structurées ?

o A) 70%
o B) 80%
o C) 85%
o D) 90% (Réponse correcte)

4. Quelle n’est pas une source typique de données Big Data ?

o A) Téléphones
o B) Bases de données
o C) Téléspectateurs (Réponse correcte)
o D) Sites web

5. Quel est l’un des défis clés liés aux Big Data ?
o A) Manque de stockage physique
o B) Réunir des données variées pour en extraire des connaissances (Réponse correcte)
o C) Supprimer les données inutiles
o D) Limiter la quantité de données collectées

6. Les 5V qui caractérisent les Big Data incluent :

o A) Variété, Véracité, Valeur, Vitesse, Volume (Réponse correcte)
o B) Volume, Vision, Vigilance, Valeur, Vitesse
o C) Variété, Vérité, Vérification, Volume, Valeur
o D) Vitesse, Vision, Valeur, Volume, Vérité

7. Que signifie la dimension "véracité" des Big Data ?

o A) La rapidité de traitement
o B) La fiabilité des données (Réponse correcte)
o C) La variété des formats
o D) La quantité de données générées

8. Quel type de données est typiquement non structuré ?

o A) Bases de données relationnelles
o B) Logs système
o C) Vidéos et photos (Réponse correcte)
o D) Tableaux Excel

9. Pourquoi la visualisation des Big Data est-elle importante ?

o A) Pour réduire le volume des données
o B) Pour rendre les données accessibles et compréhensibles (Réponse correcte)
o C) Pour accélérer la vitesse de stockage
o D) Pour regrouper les données similaires

10. Quel outil est couramment utilisé pour le traitement des Big Data ?

 A) Excel
 B) Hadoop (Réponse correcte)
 C) PostgreSQL
 D) Tableau

11. Pourquoi les bases relationnelles ne suffisent-elles pas pour les Big Data ?
 A) Elles coûtent trop cher
 B) Elles ne sont pas adaptées aux données non structurées (Réponse correcte)
 C) Elles manquent de sécurité
 D) Elles ne peuvent pas se connecter à des réseaux sociaux

12. Qu’est-ce que le "volume" dans le contexte des Big Data ?

 A) La vitesse de traitement des données

 B) La quantité de données générées (Réponse correcte)
 C) La diversité des données collectées
 D) La précision des données

13. Quel est un exemple d’application des Big Data dans le domaine médical ?

 A) Diagnostiquer les patients par IA

 B) Détecter des conditions critiques à temps pour intervenir (Réponse correcte)
 C) Éduquer les médecins sur les maladies rares
 D) Réduire le coût des traitements

14. Quel avantage offre la baisse des coûts de stockage des données ?

 A) Moins de sécurité nécessaire

 B) Possibilité de stocker plus de données utiles (Réponse correcte)
 C) Réduction du besoin en bases de données
 D) Amélioration automatique de la qualité des données

15. Quel problème pose la vitesse (velocité) des Big Data ?

 A) Comment stocker les données rapidement (Réponse correcte)

 B) Comment limiter le volume de données
 C) Comment supprimer les doublons
 D) Comment réduire les coûts

16. Quelle est une caractéristique des données semi-structurées ?

 A) Elles sont organisées en tables relationnelles

 B) Elles comportent des éléments pour humains et machines (Réponse correcte)
 C) Elles sont entièrement non lisibles par une machine
 D) Elles sont uniquement visuelles

17. Quel est l’objectif principal des Big Data dans les entreprises ?

 A) Réduire la quantité de données collectées

 B) Générer de la valeur à partir des données (Réponse correcte)
 C) Limiter les coûts de stockage
 D) Accélérer les processus informatiques

18. Pourquoi est-il parfois difficile de déterminer quelles données stocker ?

 A) Le manque de technologies modernes

 B) Les données inutiles ne sont pas identifiables facilement (Réponse correcte)
 C) Les données ne sont jamais utiles
 D) Le coût de stockage est prohibitif

19. Quel défi est associé à la variété des Big Data ?

 A) La lenteur des systèmes d’analyse

 B) La nécessité de gérer plusieurs types de formats de données (Réponse correcte)
 C) Le coût élevé des bases relationnelles
 D) La limitation des données non numériques

20. Quelle question clé pose l’extraction de valeur dans les Big Data ?

 A) Comment réduire le volume des données ?

 B) Comment rendre les données exploitables ? (Réponse correcte)
 C) Comment supprimer les données inutiles ?
 D) Comment accélérer le transfert des données ?

QCM : Bases de données NoSQL

1. Que signifie le terme NoSQL ?

o A) Non seulement SQL (Réponse correcte)
o B) Nouveau SQL
o C) Sans SQL
o D) SQL simplifié

2. Quelle caractéristique distingue une base de données NoSQL ?

o A) Utilisation d'un schéma rigide
o B) Adaptation à des structures variées (Réponse correcte)
o C) Nécessité de jointures complexes
o D) Organisation en tables fixes

3. Les bases de données NoSQL sont particulièrement adaptées pour :

o A) Des données tabulaires
o B) Des données semi-structurées ou non structurées (Réponse correcte)
o C) Des transactions bancaires complexes
o D) Des rapports statiques

4. Quel est un type de base de données NoSQL ?

o A) Relationnelle
o B) Clé-valeur (Réponse correcte)
o C) Spatiale
o D) OLAP

5. Dans une base de données orientée documents, les données sont souvent stockées en :
o A) Tableaux
o B) Documents JSON ou XML (Réponse correcte)
o C) Fichiers texte
o D) Formats binaires

6. Qu’est-ce qu’une base orientée graphes permet de représenter ?

o A) Relations complexes entre entités (Réponse correcte)
o B) Relations tabulaires simples
o C) Données non connectées
o D) Fichiers vidéo

7. Quel est un avantage clé des bases NoSQL par rapport aux bases relationnelles ?
o A) Normalisation automatique
o B) Flexibilité et évolutivité (Réponse correcte)
o C) Cohérence stricte des transactions
o D) Modèle de données fixe

8. Quel modèle NoSQL est utilisé pour analyser de grandes séries temporelles ?
o A) Document
o B) Colonne (Réponse correcte)
o C) Graphe
o D) Clé-valeur

9. Qu’est-ce que HBase ?

o A) Une base orientée lignes
o B) Une base NoSQL orientée colonnes (Réponse correcte)
o C) Un système de fichiers distribué
o D) Un outil d’analyse de flux

10. Quel est un cas d’utilisation typique des bases NoSQL ?

o A) Gestion des logs d’applications (Réponse correcte)
o B) Comptabilité et finances
o C) Traitement de données relationnelles
o D) Gestion de bases SQL classiques

11. Les bases NoSQL sont particulièrement adaptées aux systèmes :

o A) Décentralisés et distribués (Réponse correcte)
o B) Monolithiques
o C) Centralisés uniquement
o D) Relationnels

12. Quel est un outil de stockage et de traitement souvent combiné avec NoSQL ?
o A) Hadoop (Réponse correcte)
o B) Oracle
o C) Excel
o D) MySQL

13. Dans une base clé-valeur, les données sont :

o A) Organisées sous forme de clés associées à des valeurs (Réponse correcte)
o B) Stockées dans des colonnes relationnelles
o C) Stockées dans des documents JSON uniquement
o D) Liées par des relations complexes

14. Quelle base de données est construite sur HDFS ?

o A) MySQL
o B) HBase (Réponse correcte)
o C) Oracle
o D) MongoDB

15. Quel modèle NoSQL est utilisé pour analyser des réseaux sociaux ?
o A) Colonne
o B) Graphe (Réponse correcte)
o C) Document
o D) Clé-valeur

16. Quel avantage majeur offre NoSQL pour les applications en temps réel ?
o A) Cohérence stricte des données
o B) Haute disponibilité (Réponse correcte)
o C) Modèle ACID complet
o D) Compatibilité avec SQL

17. Quelle est une limitation des bases NoSQL ?

o A) Manque de flexibilité
o B) Cohérence éventuelle au lieu de stricte (Réponse correcte)
o C) Incapacité à gérer de grands volumes de données
o D) Nécessité de normalisation complexe

18. Dans quel cas NoSQL est-il préférable à SQL ?

o A) Lorsque les données sont fortement structurées
o B) Pour des données non structurées ou semi-structurées (Réponse correcte)
o C) Pour des transactions bancaires complexes
o D) Lorsque les relations entre données sont simples

19. Quel outil est conçu pour le traitement parallèle des données en combinaison avec
NoSQL ?
o A) MapReduce (Réponse correcte)
o B) Tableau
o C) PostgreSQL
o D) SQL Server

20. Qu’est-ce qui différencie les bases orientées colonnes des bases relationnelles ?
o A) Elles ne permettent pas les jointures
o B) Elles sont optimisées pour les analyses sur de grands ensembles de données
(Réponse correcte)
o C) Elles nécessitent une structure stricte
o D) Elles ne gèrent pas les relations entre données

QCM : Traitements et architectures Big Data

1. Quel est le principal objectif du traitement par lots (batch processing) ?

o A) Traiter un flux continu de données
o B) Traiter de gros volumes de données collectées sur une période donnée (Réponse
correcte)
o C) Permettre une visualisation en temps réel
o D) Analyser des données graphiques
2. Quel outil est souvent utilisé pour le traitement par lots ?
o A) Apache Kafka
o B) Hadoop MapReduce (Réponse correcte)
o C) Spark Streaming
o D) PostgreSQL

3. Qu’est-ce que le traitement en streaming ?

o A) Traitement de données en lots fixes
o B) Traitement de données en temps réel ou quasi-réel (Réponse correcte)
o C) Analyse uniquement des logs de serveur
o D) Réduction des volumes de données

4. Quel est un cas d’utilisation typique du traitement en streaming ?

o A) Calcul de rapports mensuels
o B) Surveillance des transactions bancaires en temps réel (Réponse correcte)
o C) Archivage de données historiques
o D) Analyse statistique sur des mois

5. Quel outil est couramment utilisé pour le traitement en streaming ?

o A) Excel
o B) Apache Kafka (Réponse correcte)
o C) MySQL
o D) Oracle

6. Quelle est une caractéristique du traitement par micro-batches ?

o A) Traite des données en temps réel sans latence
o B) Regroupe les données en petits lots avant traitement (Réponse correcte)
o C) Ne traite que des données structurées
o D) Nécessite un stockage préalable des données

7. Quelle technologie est souvent utilisée pour le traitement par micro-batches ?

o A) Spark Structured Streaming (Réponse correcte)
o B) Hadoop HDFS
o C) Apache Flink
o D) Tableau

8. Qu’est-ce que l’architecture Lambda ?

o A) Une architecture pour bases relationnelles
o B) Une architecture combinant traitement par lots et temps réel (Réponse correcte)
o C) Une alternative simplifiée à l’architecture Kappa
o D) Une méthode de gestion de bases NoSQL

9. Quel est un composant clé de l’architecture Lambda ?

o A) Couche batch pour l’analyse historique (Réponse correcte)
o B) Couche unifiée pour tous les types de données
o C) Uniquement le traitement en temps réel
o D) Base SQL centralisée

10. Quelle est une limitation de l’architecture Lambda ?

o A) Manque de flexibilité pour le traitement en streaming
o B) Complexité de maintenance (Réponse correcte)
o C) Incompatibilité avec Hadoop
o D) Nécessité de normalisation des données

11. Qu’est-ce que l’architecture Kappa ?

o A) Une version avancée de Lambda
o B) Une architecture utilisant uniquement le traitement en flux (Réponse correcte)
o C) Une architecture conçue pour SQL
o D) Une méthode pour normaliser les données

12. Quel avantage offre l’architecture Kappa par rapport à Lambda ?

o A) Traitement simplifié et adapté aux systèmes modernes (Réponse correcte)
o B) Intégration des analyses historiques
o C) Cohérence stricte des données
o D) Nécessité d’une base relationnelle

13. Quelle technologie est souvent combinée avec Kappa pour gérer des flux de données ?
o A) Apache Kafka (Réponse correcte)
o B) Hadoop HDFS
o C) Excel
o D) Tableau

14. Quel type de traitement convient mieux pour les données générées par l’IoT ?
o A) Traitement par lots
o B) Traitement en streaming (Réponse correcte)
o C) Traitement OLAP
o D) Stockage statique

15. Quelle étape est réalisée par un système d’ingestion de données ?

o A) Traitement des flux en temps réel
o B) Collecte et transmission des données vers un système de traitement ou stockage
(Réponse correcte)
o C) Normalisation des données collectées
o D) Analyse des logs de serveurs

16. Quel outil est couramment utilisé comme système d’ingestion de données ?
o A) Apache Kafka (Réponse correcte)
o B) MySQL
o C) Tableau
o D) Excel

17. Que permet un système d’ingestion avec buffering ?

o A) Supprimer les doublons dans les données
o B) Stocker temporairement les données avant traitement (Réponse correcte)
o C) Traiter des données archivées
o D) Garantir la cohérence stricte des données

18. Quelle est une caractéristique clé de Spark Structured Streaming ?

o A) Traite les données en temps réel sans regroupement
o B) Utilise le traitement par micro-batches (Réponse correcte)
o C) Nécessite une couche batch séparée
o D) N’est pas compatible avec l’architecture Lambda

19. Quel type de traitement est souvent utilisé pour surveiller les journaux de serveurs web
?
o A) Traitement par lots
o B) Traitement en streaming (Réponse correcte)
o C) Traitement OLAP
o D) Analyse statique

20. Quel est un inconvénient de l’architecture Kappa ?

o A) Nécessité d’un traitement en batch pour l’historique complexe (Réponse correcte)
o B) Incompatibilité avec les bases relationnelles
o C) Manque de flexibilité pour les flux de données
o D) Latence élevée

QCM : Hadoop et MapReduce

1. Qu’est-ce qu’Hadoop ?
o a) Un système de base de données relationnelle
o b) Un framework open-source pour le stockage et le traitement distribué
o c) Un logiciel de visualisation de données
o d) Un serveur web
Réponse : b)
2. Quel composant gère le stockage des données dans Hadoop ?
o a) YARN
o b) MapReduce
o c) HDFS
o d) Spark
Réponse : c)
3. HDFS divise les fichiers en blocs de :
o a) 16 Mo par défaut
o b) 32 Mo par défaut
o c) 64 Mo par défaut
o d) 128 Mo par défaut
Réponse : c)
4. Quel est le rôle du NameNode dans HDFS ?
o a) Stocker les données
o b) Gérer la métadonnée du système de fichiers
o c) Répliquer les données
o d) Répartir les tâches MapReduce
Réponse : b)
5. Que signifie YARN ?
o a) Yet Another Resource Negotiator
o b) Yet Another Random Network
o c) Your Automated Resource Network
o d) Your Application Resource Node
Réponse : a)
6. Quelle fonctionnalité MapReduce effectue le regroupement des clés ?
o a) Map
o b) Shuffle
o c) Reduce
o d) Split
Réponse : b)
7. Quelle est la principale utilisation de Hive ?
o a) Calcul distribué
o b) Interroger les données avec SQL
o c) Gestion des tâches MapReduce
o d) Réplication des données
Réponse : b)
8. Quel langage est à l’origine de MapReduce ?
o a) Python
o b) Java
o c) C++
o d) Ruby
Réponse : b)
9. Dans HDFS, combien de répliques sont conservées par défaut ?
o a) 2
o b) 3
o c) 4
o d) 5
Réponse : b)
10. Quel framework Hadoop est optimisé pour le traitement en temps réel ?
o a) Hive
o b) Spark
o c) Pig
o d) Flink
Réponse : b)

Suite :

11. Quel composant gère les ressources dans YARN ?

Réponse : ResourceManager
12. Comment s’appelle le fichier contenant l’arborescence dans le NameNode ?
Réponse : FsImage
13. Quel est le rôle principal d’un DataNode ?
Réponse : Stocker les données
14. Quel est l’objectif de l’étape Map dans MapReduce ?
Réponse : Transformer les données en couples clé/valeur.
15. Quel outil dans Hadoop utilise des scripts simples pour le traitement de
données ?
Réponse : Pig
16. Que se passe-t-il en cas de panne d’un NameNode ?
Réponse : Le Standby NameNode prend le relais.
17. Qu’est-ce que le shuffle dans MapReduce ?
Réponse : Grouper les données par clé.
18. Quelle étape MapReduce réduit les valeurs pour chaque clé distincte ?
Réponse : Reduce
19. Quel type de tâches Hadoop divise-t-il ?
Réponse : Tâches Map et Reduce.
20. Pourquoi HDFS réplique-t-il les blocs sur différents racks ?
Réponse : Pour améliorer la disponibilité et la résilience aux pannes.

1. Quel est le rôle principal d’Hadoop ?

o a) Stocker et traiter des données massives de manière distribuée
o b) Gérer des bases de données relationnelles
o c) Créer des rapports de visualisation
o d) Analyser des images
Réponse : a)
2. Quel composant Hadoop est responsable de la gestion des fichiers distribués ?
o a) MapReduce
o b) YARN
o c) HDFS
o d) Hive
Réponse : c)
3. HDFS divise les fichiers en blocs de taille :
o a) 16 Mo
o b) 32 Mo
o c) 64 Mo
o d) 128 Mo
Réponse : c)
4. Le NameNode est responsable de :
o a) Stocker les données
o b) Gérer les métadonnées
o c) Répartir les tâches MapReduce
o d) Calculer les résultats finaux
Réponse : b)
5. Qu’est-ce que YARN apporte à Hadoop ?
o a) Un système de stockage distribué
o b) Une gestion des ressources pour exécuter plusieurs applications
o c) Un outil de traitement SQL
o d) Une interface utilisateur graphique
Réponse : b)
6. Dans Hadoop, quel outil permet d’interroger les données avec SQL ?
o a) Spark
o b) Hive
o c) Pig
o d) HDFS
Réponse : b)
7. Quelle étape dans MapReduce regroupe les couples clé/valeur par clé ?
o a) Map
o b) Shuffle
o c) Split
o d) Reduce
Réponse : b)
8. Combien de répliques HDFS crée-t-il par défaut pour chaque bloc ?
o a) 2
o b) 3
o c) 4
o d) 5
Réponse : b)
9. Quel framework Hadoop est conçu pour le traitement de données en mémoire ?
o a) Spark
o b) Hive
o c) Pig
o d) Flink
Réponse : a)
10. Le FsImage contient :
o a) Les données brutes stockées
o b) L’arborescence du système de fichiers
o c) Les logs des modifications
o d) Les résultats des tâches Reduce
Réponse : b)

11. Le MapReduce utilise principalement quel langage pour écrire les programmes ?
o a) Python
o b) Java
o c) C++
o d) Ruby
Réponse : b)
12. Comment sont appelées les unités de traitement dans MapReduce v1 ?
o a) NameNodes
o b) Containers
o c) TaskTrackers
o d) DataNodes
Réponse : c)
13. Quel composant gère les ressources dans YARN ?
o a) NameNode
o b) ResourceManager
o c) ApplicationMaster
o d) NodeManager
Réponse : b)
14. Quel est l’ordre des étapes dans un processus MapReduce ?
o a) Map -> Reduce -> Shuffle
o b) Shuffle -> Map -> Reduce
o c) Split -> Map -> Shuffle -> Reduce
o d) Map -> Shuffle -> Split -> Reduce
Réponse : c)
15. Pourquoi Hadoop utilise-t-il la réplication des données dans HDFS ?
o a) Pour économiser de l’espace
o b) Pour garantir une meilleure résilience aux pannes
o c) Pour accélérer le traitement des tâches MapReduce
o d) Pour simplifier la gestion des blocs
Réponse : b)
16. Quel composant HDFS est chargé d’effectuer les opérations de lecture/écriture ?
o a) NameNode
o b) DataNode
o c) ResourceManager
o d) TaskTracker
Réponse : b)
17. Quelle étape MapReduce transforme les données en couples clé/valeur ?
o a) Shuffle
o b) Map
o c) Reduce
o d) Split
Réponse : b)
18. Quel problème MapReduce v2 avec YARN résout-il ?
o a) La limitation à un seul type de tâche
o b) La lenteur de la réplication
o c) La gestion des métadonnées dans HDFS
o d) La faible tolérance aux pannes
Réponse : a)
19. Dans l’étape Reduce, les valeurs associées à chaque clé sont :
o a) Divisées par tâche
o b) Regroupées et traitées
o c) Ignorées si elles sont identiques
o d) Répliquées sur plusieurs DataNodes
Réponse : b)
20. Dans MapReduce, que se passe-t-il si un TaskTracker échoue ?
o a) Les données sont supprimées
o b) La tâche est redistribuée à un autre TaskTracker
o c) Le job entier échoue
o d) Le NameNode doit être redémarré
Réponse : b)

Résumé des fichiers et points importants pour un QCM

1. Introduction aux Big Data (fichier 1)

 Résumé :
o Chaque jour, nous générons 2,5 trillions d’octets de données.
o 90% des données sont non structurées, issues de multiples sources (sites web,
téléphones, etc.).
o Défis majeurs : stockage, traitement, visualisation.
o Les 5V du Big Data : Volume, Variété, Vitesse, Véracité, Valeur.
o Les bases de données traditionnelles ne suffisent pas pour gérer ce volume.
o Technologies Big Data : Hadoop, bases NoSQL.
 Points importants pour QCM :
o Les 5V du Big Data.
o Différence entre bases relationnelles et Big Data.
o Applications : prédiction météorologique, détection de conditions critiques.
o Historique et réduction du coût de stockage.
2. Bases de données NoSQL (fichier 2)

 Résumé :
o Les bases NoSQL sont non relationnelles, flexibles et conçues pour le Big
Data.
o Types : Clé-valeur, Document, Colonne, Graphe.
o NoSQL vs SQL : pas de schéma fixe, évolutivité accrue.
o HBase : Base orientée colonne sur HDFS.
o Cas d’utilisation : réseaux sociaux, logs, IoT.
o Intégration avec Hadoop pour une gestion distribuée.
 Points importants pour QCM :
o Types de bases NoSQL.
o Différences entre HDFS et HBase.
o Avantages de NoSQL (scalabilité, haute disponibilité).
o Comparaison entre bases orientées lignes et colonnes.

3. Traitements et architectures Big Data (fichier 3)

 Résumé :
o Types de traitement : Batch, Streaming, Micro-batching.
o Architectures : Lambda (batch + temps réel) et Kappa (temps réel
uniquement).
o Outils : Hadoop, Spark, Kafka.
o Applications : surveillance bancaire, IoT.
o Défis : maintenir des flux en temps réel, coordonner des systèmes distribués.
 Points importants pour QCM :
o Comparaison des types de traitement (Batch, Streaming, etc.).
o Avantages/inconvénients des architectures Lambda et Kappa.
o Rôles des outils comme Kafka et Spark.

Vous aimerez peut-être aussi

QCM Chat
Pas encore d'évaluation
QCM Chat
12 pages
QCM Big Datach1qcm Big Datach1qcm Big Datach1
Pas encore d'évaluation
QCM Big Datach1qcm Big Datach1qcm Big Datach1
12 pages
QCM Inf 356
100% (3)
QCM Inf 356
13 pages
Exam BigData
Pas encore d'évaluation
Exam BigData
5 pages
Big Data : Concepts et Technologies
Pas encore d'évaluation
Big Data : Concepts et Technologies
21 pages
Examen
Pas encore d'évaluation
Examen
4 pages
QCM Big Data : Testez vos connaissances
Pas encore d'évaluation
QCM Big Data : Testez vos connaissances
2 pages
PSK
Pas encore d'évaluation
PSK
28 pages
QCM Big Data
100% (5)
QCM Big Data
7 pages
QCM
100% (1)
QCM
28 pages
Examen Nosql24
Pas encore d'évaluation
Examen Nosql24
6 pages
QCM
100% (2)
QCM
19 pages
QCM Analyse Donnees Introduction
Pas encore d'évaluation
QCM Analyse Donnees Introduction
3 pages
TP1 It240 Introduction Aux Bases de Donnees
Pas encore d'évaluation
TP1 It240 Introduction Aux Bases de Donnees
18 pages
QCM Big Data Corrigé - Partie 3
Pas encore d'évaluation
QCM Big Data Corrigé - Partie 3
9 pages
Credit 5bi Big Data
Pas encore d'évaluation
Credit 5bi Big Data
4 pages
Examen Big DATA
100% (2)
Examen Big DATA
4 pages
Ds Big Data Hachani
Pas encore d'évaluation
Ds Big Data Hachani
7 pages
Concepts clés des bases de données relationnelles
Pas encore d'évaluation
Concepts clés des bases de données relationnelles
2 pages
Questions et réponses sur NoSQL et Hadoop
Pas encore d'évaluation
Questions et réponses sur NoSQL et Hadoop
21 pages
TD1 Correction
Pas encore d'évaluation
TD1 Correction
7 pages
SESSION 2 - BASE DE DONNEE NoSQL
Pas encore d'évaluation
SESSION 2 - BASE DE DONNEE NoSQL
20 pages
Exam Bd1718 SR
Pas encore d'évaluation
Exam Bd1718 SR
5 pages
Fouska
Pas encore d'évaluation
Fouska
1 page
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
2 pages
QCM Corrigé
100% (4)
QCM Corrigé
7 pages
Résume Big Data
Pas encore d'évaluation
Résume Big Data
3 pages
Cours
Pas encore d'évaluation
Cours
54 pages
QCM Base de Données Complet
Pas encore d'évaluation
QCM Base de Données Complet
28 pages
Évaluation Classe 3
Pas encore d'évaluation
Évaluation Classe 3
6 pages
Traitement Des Metadonnees Iftic'Sup M1
Pas encore d'évaluation
Traitement Des Metadonnees Iftic'Sup M1
11 pages
Examen BDA Corrigé SR 2223
Pas encore d'évaluation
Examen BDA Corrigé SR 2223
4 pages
Banque de Questions Avec 2 Points
Pas encore d'évaluation
Banque de Questions Avec 2 Points
21 pages
1ère Année Master GL (S3) TD 1: Introduction Au Big Data Quiz
Pas encore d'évaluation
1ère Année Master GL (S3) TD 1: Introduction Au Big Data Quiz
2 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
Examen Gestion Répartie Du Big Data Ne Pas Cliquer Sur Ce Module Relecture de Tentative DatumAcademy
Pas encore d'évaluation
Examen Gestion Répartie Du Big Data Ne Pas Cliquer Sur Ce Module Relecture de Tentative DatumAcademy
72 pages
Examen Final
Pas encore d'évaluation
Examen Final
3 pages
Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
Big Data
Pas encore d'évaluation
Big Data
5 pages
Nosql
Pas encore d'évaluation
Nosql
4 pages
Ateliers 3011
Pas encore d'évaluation
Ateliers 3011
8 pages
Bases de données et analyse prédictive
Pas encore d'évaluation
Bases de données et analyse prédictive
2 pages
Les Bases de Données Nosql: Pr. Soussi Nassima
Pas encore d'évaluation
Les Bases de Données Nosql: Pr. Soussi Nassima
112 pages
QCM Base de Donnees
Pas encore d'évaluation
QCM Base de Donnees
14 pages
Institut National Des Sciences Appliquées Et de Technologie
Pas encore d'évaluation
Institut National Des Sciences Appliquées Et de Technologie
10 pages
Corrige Devoir de Revision 1
Pas encore d'évaluation
Corrige Devoir de Revision 1
4 pages
7 - Chapitre 5.1
Pas encore d'évaluation
7 - Chapitre 5.1
17 pages
Bases de Données NoSQL et Big Data
Pas encore d'évaluation
Bases de Données NoSQL et Big Data
112 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Cours Big D
Pas encore d'évaluation
Cours Big D
81 pages
Nein
Pas encore d'évaluation
Nein
1 page
Simili Big 1
Pas encore d'évaluation
Simili Big 1
2 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Ds 3
Pas encore d'évaluation
Ds 3
8 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
112 pages
Cybersécurité : Enjeux et Solutions
Pas encore d'évaluation
Cybersécurité : Enjeux et Solutions
6 pages
Consultation Redaction 11.04.22
Pas encore d'évaluation
Consultation Redaction 11.04.22
15 pages
REX615 Data Sheet 2NGA001975 LRFRa
Pas encore d'évaluation
REX615 Data Sheet 2NGA001975 LRFRa
6 pages
Audit financier de la société SEFO
Pas encore d'évaluation
Audit financier de la société SEFO
7 pages
Facture d'Achat Chanel Paris
Pas encore d'évaluation
Facture d'Achat Chanel Paris
1 page
Ue201718 213 S3 PDF
Pas encore d'évaluation
Ue201718 213 S3 PDF
120 pages
Innovations de Sonal en enquêtes qualitatives
Pas encore d'évaluation
Innovations de Sonal en enquêtes qualitatives
12 pages
Première Année: Programme Accréditation 2021 - 2025
Pas encore d'évaluation
Première Année: Programme Accréditation 2021 - 2025
4 pages
Optimisation du Grandissement des Lentilles
Pas encore d'évaluation
Optimisation du Grandissement des Lentilles
1 page
Cours Chapitre 3
Pas encore d'évaluation
Cours Chapitre 3
38 pages
L'importance Des Mots Dans La Redaction Du Rapport
Pas encore d'évaluation
L'importance Des Mots Dans La Redaction Du Rapport
3 pages
Liste Des Ressources
Pas encore d'évaluation
Liste Des Ressources
4 pages
Carte VPS35: Guide Technique Alcatel
Pas encore d'évaluation
Carte VPS35: Guide Technique Alcatel
18 pages
Instruments de mesure pour eaux usées
Pas encore d'évaluation
Instruments de mesure pour eaux usées
18 pages
Le Lien Social A L'heure Du Numérique
Pas encore d'évaluation
Le Lien Social A L'heure Du Numérique
2 pages
Technique de Construction Et de Conception Des Immeubles de Grande Hauteur en Construction Bois-1
Pas encore d'évaluation
Technique de Construction Et de Conception Des Immeubles de Grande Hauteur en Construction Bois-1
34 pages
Corrigé BTS 2017: Développement SI
Pas encore d'évaluation
Corrigé BTS 2017: Développement SI
8 pages
Chapitre 1 CO
Pas encore d'évaluation
Chapitre 1 CO
29 pages
HGTB
Pas encore d'évaluation
HGTB
3 pages
Covadis Voirie Et Assainissement
Pas encore d'évaluation
Covadis Voirie Et Assainissement
11 pages
TP 5
Pas encore d'évaluation
TP 5
10 pages
Recrutement IT Support CDI à Yaoundé
Pas encore d'évaluation
Recrutement IT Support CDI à Yaoundé
3 pages
Nac FR DS
Pas encore d'évaluation
Nac FR DS
7 pages
La Lecture Rapide en 60 Minutes
Pas encore d'évaluation
La Lecture Rapide en 60 Minutes
95 pages
Reactjs Cours GPT
Pas encore d'évaluation
Reactjs Cours GPT
18 pages
CH 1
Pas encore d'évaluation
CH 1
20 pages
Enregistrements SRV et NAPTR en VoIP
Pas encore d'évaluation
Enregistrements SRV et NAPTR en VoIP
21 pages
Exercices Corrigés AOP en Électronique
100% (2)
Exercices Corrigés AOP en Électronique
354 pages
Algoetprogaucycle 4 Ciilycee
Pas encore d'évaluation
Algoetprogaucycle 4 Ciilycee
142 pages
Mini-projet SI pour AUTOCARE
Pas encore d'évaluation
Mini-projet SI pour AUTOCARE
2 pages