Devoir : QCM de 100 questions sur les Big Data, NoSQL et traitements<
Thème 1 : Introduction aux Big Data
1. Que représentent les 5V du Big Data ?
o A) Volume, Vitesse, Variété, Véracité, Valeur (Réponse correcte)
o B) Variété, Valeur, Vision, Vitesse, Volume
o C) Valeur, Vision, Véracité, Vigilance, Volume
o D) Variété, Vision, Vigilance, Valeur, Vitesse
2. Quel pourcentage des données mondiales sont non structurées ?
o A) 70%
o B) 80%
o C) 90% (Réponse correcte)
o D) 95%
3. Quel est l’objectif principal des Big Data dans le secteur médical ?
o A) Identifier les patients à haut risque
o B) Créer de nouveaux traitements
o C) Détecter des conditions critiques pour intervenir à temps (Réponse
correcte)
o D) Améliorer les consultations en ligne
4. Quel élément n’est pas une source de données Big Data ?
o A) Sites web
o B) Bases de données
o C) Téléviseurs (Réponse correcte)
o D) Smartphones
5. Qu’est-ce qui caractérise la véracité des données Big Data ?
o A) La vitesse d’arrivée des données
o B) La qualité et la fiabilité des données (Réponse correcte)
o C) La capacité à traiter des données massives
o D) La structure des données
...
Thème 2 : Bases de données NoSQL
21. Quelle caractéristique distingue une base de données NoSQL ?
A) Utilisation obligatoire d’un schéma fixe
B) Absence de relation entre les tables
C) Flexibilité et évolutivité (Réponse correcte)
D) Nécessité de normalisation
22. Le modèle « Clé-Valeur » est associé à :
A) Des graphes
B) Des documents JSON
C) Une structure simple pour des opérations rapides (Réponse correcte)
D) Des colonnes fixes
23. Qu’est-ce que HBase ?
A) Une base de données orientée graphes
B) Une base NoSQL orientée colonnes (Réponse correcte)
C) Un outil de traitement en batch
D) Une base relationnelle avancée
...
Thème 3 : Traitements et architectures Big Data
61. Quel type de traitement traite des données collectées sur une longue période ?
A) Traitement en temps réel
B) Traitement en streaming
C) Traitement par lots (Réponse correcte)
D) Micro-batching
62. Quel outil est utilisé pour le traitement en streaming ?
A) Hadoop MapReduce
B) Apache Kafka (Réponse correcte)
C) Excel
D) PostgreSQL
63. Quelle est une caractéristique clé de l’architecture Lambda ?
A) Ne traite que des données historiques
B) Combine traitement par lots et temps réel (Réponse correcte)
C) Est remplacée par Kappa
D) Fonctionne uniquement avec des bases relationnelles
...
QCM : Introduction aux Big Data
1. Quel est le volume de données généré chaque jour dans le monde ?
o A) 2,5 milliards d’octets
o B) 2,5 millions d’octets
o C) 2,5 trillions d’octets (Réponse correcte)
o D) 2,5 quadrillions d’octets
2. Quel pourcentage des données mondiales ont été créées au cours des dernières
années ?
o A) 70%
o B) 80%
o C) 90% (Réponse correcte)
o D) 95%
3. Quel pourcentage des données générées sont non structurées ?
o A) 70%
o B) 80%
o C) 85%
o D) 90% (Réponse correcte)
4. Quelle n’est pas une source typique de données Big Data ?
o A) Téléphones
o B) Bases de données
o C) Téléspectateurs (Réponse correcte)
o D) Sites web
5. Quel est l’un des défis clés liés aux Big Data ?
o A) Manque de stockage physique
o B) Réunir des données variées pour en extraire des connaissances (Réponse correcte)
o C) Supprimer les données inutiles
o D) Limiter la quantité de données collectées
6. Les 5V qui caractérisent les Big Data incluent :
o A) Variété, Véracité, Valeur, Vitesse, Volume (Réponse correcte)
o B) Volume, Vision, Vigilance, Valeur, Vitesse
o C) Variété, Vérité, Vérification, Volume, Valeur
o D) Vitesse, Vision, Valeur, Volume, Vérité
7. Que signifie la dimension "véracité" des Big Data ?
o A) La rapidité de traitement
o B) La fiabilité des données (Réponse correcte)
o C) La variété des formats
o D) La quantité de données générées
8. Quel type de données est typiquement non structuré ?
o A) Bases de données relationnelles
o B) Logs système
o C) Vidéos et photos (Réponse correcte)
o D) Tableaux Excel
9. Pourquoi la visualisation des Big Data est-elle importante ?
o A) Pour réduire le volume des données
o B) Pour rendre les données accessibles et compréhensibles (Réponse correcte)
o C) Pour accélérer la vitesse de stockage
o D) Pour regrouper les données similaires
10. Quel outil est couramment utilisé pour le traitement des Big Data ?
A) Excel
B) Hadoop (Réponse correcte)
C) PostgreSQL
D) Tableau
11. Pourquoi les bases relationnelles ne suffisent-elles pas pour les Big Data ?
A) Elles coûtent trop cher
B) Elles ne sont pas adaptées aux données non structurées (Réponse correcte)
C) Elles manquent de sécurité
D) Elles ne peuvent pas se connecter à des réseaux sociaux
12. Qu’est-ce que le "volume" dans le contexte des Big Data ?
A) La vitesse de traitement des données
B) La quantité de données générées (Réponse correcte)
C) La diversité des données collectées
D) La précision des données
13. Quel est un exemple d’application des Big Data dans le domaine médical ?
A) Diagnostiquer les patients par IA
B) Détecter des conditions critiques à temps pour intervenir (Réponse correcte)
C) Éduquer les médecins sur les maladies rares
D) Réduire le coût des traitements
14. Quel avantage offre la baisse des coûts de stockage des données ?
A) Moins de sécurité nécessaire
B) Possibilité de stocker plus de données utiles (Réponse correcte)
C) Réduction du besoin en bases de données
D) Amélioration automatique de la qualité des données
15. Quel problème pose la vitesse (velocité) des Big Data ?
A) Comment stocker les données rapidement (Réponse correcte)
B) Comment limiter le volume de données
C) Comment supprimer les doublons
D) Comment réduire les coûts
16. Quelle est une caractéristique des données semi-structurées ?
A) Elles sont organisées en tables relationnelles
B) Elles comportent des éléments pour humains et machines (Réponse correcte)
C) Elles sont entièrement non lisibles par une machine
D) Elles sont uniquement visuelles
17. Quel est l’objectif principal des Big Data dans les entreprises ?
A) Réduire la quantité de données collectées
B) Générer de la valeur à partir des données (Réponse correcte)
C) Limiter les coûts de stockage
D) Accélérer les processus informatiques
18. Pourquoi est-il parfois difficile de déterminer quelles données stocker ?
A) Le manque de technologies modernes
B) Les données inutiles ne sont pas identifiables facilement (Réponse correcte)
C) Les données ne sont jamais utiles
D) Le coût de stockage est prohibitif
19. Quel défi est associé à la variété des Big Data ?
A) La lenteur des systèmes d’analyse
B) La nécessité de gérer plusieurs types de formats de données (Réponse correcte)
C) Le coût élevé des bases relationnelles
D) La limitation des données non numériques
20. Quelle question clé pose l’extraction de valeur dans les Big Data ?
A) Comment réduire le volume des données ?
B) Comment rendre les données exploitables ? (Réponse correcte)
C) Comment supprimer les données inutiles ?
D) Comment accélérer le transfert des données ?
QCM : Bases de données NoSQL
1. Que signifie le terme NoSQL ?
o A) Non seulement SQL (Réponse correcte)
o B) Nouveau SQL
o C) Sans SQL
o D) SQL simplifié
2. Quelle caractéristique distingue une base de données NoSQL ?
o A) Utilisation d'un schéma rigide
o B) Adaptation à des structures variées (Réponse correcte)
o C) Nécessité de jointures complexes
o D) Organisation en tables fixes
3. Les bases de données NoSQL sont particulièrement adaptées pour :
o A) Des données tabulaires
o B) Des données semi-structurées ou non structurées (Réponse correcte)
o C) Des transactions bancaires complexes
o D) Des rapports statiques
4. Quel est un type de base de données NoSQL ?
o A) Relationnelle
o B) Clé-valeur (Réponse correcte)
o C) Spatiale
o D) OLAP
5. Dans une base de données orientée documents, les données sont souvent stockées en :
o A) Tableaux
o B) Documents JSON ou XML (Réponse correcte)
o C) Fichiers texte
o D) Formats binaires
6. Qu’est-ce qu’une base orientée graphes permet de représenter ?
o A) Relations complexes entre entités (Réponse correcte)
o B) Relations tabulaires simples
o C) Données non connectées
o D) Fichiers vidéo
7. Quel est un avantage clé des bases NoSQL par rapport aux bases relationnelles ?
o A) Normalisation automatique
o B) Flexibilité et évolutivité (Réponse correcte)
o C) Cohérence stricte des transactions
o D) Modèle de données fixe
8. Quel modèle NoSQL est utilisé pour analyser de grandes séries temporelles ?
o A) Document
o B) Colonne (Réponse correcte)
o C) Graphe
o D) Clé-valeur
9. Qu’est-ce que HBase ?
o A) Une base orientée lignes
o B) Une base NoSQL orientée colonnes (Réponse correcte)
o C) Un système de fichiers distribué
o D) Un outil d’analyse de flux
10. Quel est un cas d’utilisation typique des bases NoSQL ?
o A) Gestion des logs d’applications (Réponse correcte)
o B) Comptabilité et finances
o C) Traitement de données relationnelles
o D) Gestion de bases SQL classiques
11. Les bases NoSQL sont particulièrement adaptées aux systèmes :
o A) Décentralisés et distribués (Réponse correcte)
o B) Monolithiques
o C) Centralisés uniquement
o D) Relationnels
12. Quel est un outil de stockage et de traitement souvent combiné avec NoSQL ?
o A) Hadoop (Réponse correcte)
o B) Oracle
o C) Excel
o D) MySQL
13. Dans une base clé-valeur, les données sont :
o A) Organisées sous forme de clés associées à des valeurs (Réponse correcte)
o B) Stockées dans des colonnes relationnelles
o C) Stockées dans des documents JSON uniquement
o D) Liées par des relations complexes
14. Quelle base de données est construite sur HDFS ?
o A) MySQL
o B) HBase (Réponse correcte)
o C) Oracle
o D) MongoDB
15. Quel modèle NoSQL est utilisé pour analyser des réseaux sociaux ?
o A) Colonne
o B) Graphe (Réponse correcte)
o C) Document
o D) Clé-valeur
16. Quel avantage majeur offre NoSQL pour les applications en temps réel ?
o A) Cohérence stricte des données
o B) Haute disponibilité (Réponse correcte)
o C) Modèle ACID complet
o D) Compatibilité avec SQL
17. Quelle est une limitation des bases NoSQL ?
o A) Manque de flexibilité
o B) Cohérence éventuelle au lieu de stricte (Réponse correcte)
o C) Incapacité à gérer de grands volumes de données
o D) Nécessité de normalisation complexe
18. Dans quel cas NoSQL est-il préférable à SQL ?
o A) Lorsque les données sont fortement structurées
o B) Pour des données non structurées ou semi-structurées (Réponse correcte)
o C) Pour des transactions bancaires complexes
o D) Lorsque les relations entre données sont simples
19. Quel outil est conçu pour le traitement parallèle des données en combinaison avec
NoSQL ?
o A) MapReduce (Réponse correcte)
o B) Tableau
o C) PostgreSQL
o D) SQL Server
20. Qu’est-ce qui différencie les bases orientées colonnes des bases relationnelles ?
o A) Elles ne permettent pas les jointures
o B) Elles sont optimisées pour les analyses sur de grands ensembles de données
(Réponse correcte)
o C) Elles nécessitent une structure stricte
o D) Elles ne gèrent pas les relations entre données
QCM : Traitements et architectures Big Data
1. Quel est le principal objectif du traitement par lots (batch processing) ?
o A) Traiter un flux continu de données
o B) Traiter de gros volumes de données collectées sur une période donnée (Réponse
correcte)
o C) Permettre une visualisation en temps réel
o D) Analyser des données graphiques
2. Quel outil est souvent utilisé pour le traitement par lots ?
o A) Apache Kafka
o B) Hadoop MapReduce (Réponse correcte)
o C) Spark Streaming
o D) PostgreSQL
3. Qu’est-ce que le traitement en streaming ?
o A) Traitement de données en lots fixes
o B) Traitement de données en temps réel ou quasi-réel (Réponse correcte)
o C) Analyse uniquement des logs de serveur
o D) Réduction des volumes de données
4. Quel est un cas d’utilisation typique du traitement en streaming ?
o A) Calcul de rapports mensuels
o B) Surveillance des transactions bancaires en temps réel (Réponse correcte)
o C) Archivage de données historiques
o D) Analyse statistique sur des mois
5. Quel outil est couramment utilisé pour le traitement en streaming ?
o A) Excel
o B) Apache Kafka (Réponse correcte)
o C) MySQL
o D) Oracle
6. Quelle est une caractéristique du traitement par micro-batches ?
o A) Traite des données en temps réel sans latence
o B) Regroupe les données en petits lots avant traitement (Réponse correcte)
o C) Ne traite que des données structurées
o D) Nécessite un stockage préalable des données
7. Quelle technologie est souvent utilisée pour le traitement par micro-batches ?
o A) Spark Structured Streaming (Réponse correcte)
o B) Hadoop HDFS
o C) Apache Flink
o D) Tableau
8. Qu’est-ce que l’architecture Lambda ?
o A) Une architecture pour bases relationnelles
o B) Une architecture combinant traitement par lots et temps réel (Réponse correcte)
o C) Une alternative simplifiée à l’architecture Kappa
o D) Une méthode de gestion de bases NoSQL
9. Quel est un composant clé de l’architecture Lambda ?
o A) Couche batch pour l’analyse historique (Réponse correcte)
o B) Couche unifiée pour tous les types de données
o C) Uniquement le traitement en temps réel
o D) Base SQL centralisée
10. Quelle est une limitation de l’architecture Lambda ?
o A) Manque de flexibilité pour le traitement en streaming
o B) Complexité de maintenance (Réponse correcte)
o C) Incompatibilité avec Hadoop
o D) Nécessité de normalisation des données
11. Qu’est-ce que l’architecture Kappa ?
o A) Une version avancée de Lambda
o B) Une architecture utilisant uniquement le traitement en flux (Réponse correcte)
o C) Une architecture conçue pour SQL
o D) Une méthode pour normaliser les données
12. Quel avantage offre l’architecture Kappa par rapport à Lambda ?
o A) Traitement simplifié et adapté aux systèmes modernes (Réponse correcte)
o B) Intégration des analyses historiques
o C) Cohérence stricte des données
o D) Nécessité d’une base relationnelle
13. Quelle technologie est souvent combinée avec Kappa pour gérer des flux de données ?
o A) Apache Kafka (Réponse correcte)
o B) Hadoop HDFS
o C) Excel
o D) Tableau
14. Quel type de traitement convient mieux pour les données générées par l’IoT ?
o A) Traitement par lots
o B) Traitement en streaming (Réponse correcte)
o C) Traitement OLAP
o D) Stockage statique
15. Quelle étape est réalisée par un système d’ingestion de données ?
o A) Traitement des flux en temps réel
o B) Collecte et transmission des données vers un système de traitement ou stockage
(Réponse correcte)
o C) Normalisation des données collectées
o D) Analyse des logs de serveurs
16. Quel outil est couramment utilisé comme système d’ingestion de données ?
o A) Apache Kafka (Réponse correcte)
o B) MySQL
o C) Tableau
o D) Excel
17. Que permet un système d’ingestion avec buffering ?
o A) Supprimer les doublons dans les données
o B) Stocker temporairement les données avant traitement (Réponse correcte)
o C) Traiter des données archivées
o D) Garantir la cohérence stricte des données
18. Quelle est une caractéristique clé de Spark Structured Streaming ?
o A) Traite les données en temps réel sans regroupement
o B) Utilise le traitement par micro-batches (Réponse correcte)
o C) Nécessite une couche batch séparée
o D) N’est pas compatible avec l’architecture Lambda
19. Quel type de traitement est souvent utilisé pour surveiller les journaux de serveurs web
?
o A) Traitement par lots
o B) Traitement en streaming (Réponse correcte)
o C) Traitement OLAP
o D) Analyse statique
20. Quel est un inconvénient de l’architecture Kappa ?
o A) Nécessité d’un traitement en batch pour l’historique complexe (Réponse correcte)
o B) Incompatibilité avec les bases relationnelles
o C) Manque de flexibilité pour les flux de données
o D) Latence élevée
QCM : Hadoop et MapReduce
1. Qu’est-ce qu’Hadoop ?
o a) Un système de base de données relationnelle
o b) Un framework open-source pour le stockage et le traitement distribué
o c) Un logiciel de visualisation de données
o d) Un serveur web
Réponse : b)
2. Quel composant gère le stockage des données dans Hadoop ?
o a) YARN
o b) MapReduce
o c) HDFS
o d) Spark
Réponse : c)
3. HDFS divise les fichiers en blocs de :
o a) 16 Mo par défaut
o b) 32 Mo par défaut
o c) 64 Mo par défaut
o d) 128 Mo par défaut
Réponse : c)
4. Quel est le rôle du NameNode dans HDFS ?
o a) Stocker les données
o b) Gérer la métadonnée du système de fichiers
o c) Répliquer les données
o d) Répartir les tâches MapReduce
Réponse : b)
5. Que signifie YARN ?
o a) Yet Another Resource Negotiator
o b) Yet Another Random Network
o c) Your Automated Resource Network
o d) Your Application Resource Node
Réponse : a)
6. Quelle fonctionnalité MapReduce effectue le regroupement des clés ?
o a) Map
o b) Shuffle
o c) Reduce
o d) Split
Réponse : b)
7. Quelle est la principale utilisation de Hive ?
o a) Calcul distribué
o b) Interroger les données avec SQL
o c) Gestion des tâches MapReduce
o d) Réplication des données
Réponse : b)
8. Quel langage est à l’origine de MapReduce ?
o a) Python
o b) Java
o c) C++
o d) Ruby
Réponse : b)
9. Dans HDFS, combien de répliques sont conservées par défaut ?
o a) 2
o b) 3
o c) 4
o d) 5
Réponse : b)
10. Quel framework Hadoop est optimisé pour le traitement en temps réel ?
o a) Hive
o b) Spark
o c) Pig
o d) Flink
Réponse : b)
Suite :
11. Quel composant gère les ressources dans YARN ?
Réponse : ResourceManager
12. Comment s’appelle le fichier contenant l’arborescence dans le NameNode ?
Réponse : FsImage
13. Quel est le rôle principal d’un DataNode ?
Réponse : Stocker les données
14. Quel est l’objectif de l’étape Map dans MapReduce ?
Réponse : Transformer les données en couples clé/valeur.
15. Quel outil dans Hadoop utilise des scripts simples pour le traitement de
données ?
Réponse : Pig
16. Que se passe-t-il en cas de panne d’un NameNode ?
Réponse : Le Standby NameNode prend le relais.
17. Qu’est-ce que le shuffle dans MapReduce ?
Réponse : Grouper les données par clé.
18. Quelle étape MapReduce réduit les valeurs pour chaque clé distincte ?
Réponse : Reduce
19. Quel type de tâches Hadoop divise-t-il ?
Réponse : Tâches Map et Reduce.
20. Pourquoi HDFS réplique-t-il les blocs sur différents racks ?
Réponse : Pour améliorer la disponibilité et la résilience aux pannes.
1. Quel est le rôle principal d’Hadoop ?
o a) Stocker et traiter des données massives de manière distribuée
o b) Gérer des bases de données relationnelles
o c) Créer des rapports de visualisation
o d) Analyser des images
Réponse : a)
2. Quel composant Hadoop est responsable de la gestion des fichiers distribués ?
o a) MapReduce
o b) YARN
o c) HDFS
o d) Hive
Réponse : c)
3. HDFS divise les fichiers en blocs de taille :
o a) 16 Mo
o b) 32 Mo
o c) 64 Mo
o d) 128 Mo
Réponse : c)
4. Le NameNode est responsable de :
o a) Stocker les données
o b) Gérer les métadonnées
o c) Répartir les tâches MapReduce
o d) Calculer les résultats finaux
Réponse : b)
5. Qu’est-ce que YARN apporte à Hadoop ?
o a) Un système de stockage distribué
o b) Une gestion des ressources pour exécuter plusieurs applications
o c) Un outil de traitement SQL
o d) Une interface utilisateur graphique
Réponse : b)
6. Dans Hadoop, quel outil permet d’interroger les données avec SQL ?
o a) Spark
o b) Hive
o c) Pig
o d) HDFS
Réponse : b)
7. Quelle étape dans MapReduce regroupe les couples clé/valeur par clé ?
o a) Map
o b) Shuffle
o c) Split
o d) Reduce
Réponse : b)
8. Combien de répliques HDFS crée-t-il par défaut pour chaque bloc ?
o a) 2
o b) 3
o c) 4
o d) 5
Réponse : b)
9. Quel framework Hadoop est conçu pour le traitement de données en mémoire ?
o a) Spark
o b) Hive
o c) Pig
o d) Flink
Réponse : a)
10. Le FsImage contient :
o a) Les données brutes stockées
o b) L’arborescence du système de fichiers
o c) Les logs des modifications
o d) Les résultats des tâches Reduce
Réponse : b)
11. Le MapReduce utilise principalement quel langage pour écrire les programmes ?
o a) Python
o b) Java
o c) C++
o d) Ruby
Réponse : b)
12. Comment sont appelées les unités de traitement dans MapReduce v1 ?
o a) NameNodes
o b) Containers
o c) TaskTrackers
o d) DataNodes
Réponse : c)
13. Quel composant gère les ressources dans YARN ?
o a) NameNode
o b) ResourceManager
o c) ApplicationMaster
o d) NodeManager
Réponse : b)
14. Quel est l’ordre des étapes dans un processus MapReduce ?
o a) Map -> Reduce -> Shuffle
o b) Shuffle -> Map -> Reduce
o c) Split -> Map -> Shuffle -> Reduce
o d) Map -> Shuffle -> Split -> Reduce
Réponse : c)
15. Pourquoi Hadoop utilise-t-il la réplication des données dans HDFS ?
o a) Pour économiser de l’espace
o b) Pour garantir une meilleure résilience aux pannes
o c) Pour accélérer le traitement des tâches MapReduce
o d) Pour simplifier la gestion des blocs
Réponse : b)
16. Quel composant HDFS est chargé d’effectuer les opérations de lecture/écriture ?
o a) NameNode
o b) DataNode
o c) ResourceManager
o d) TaskTracker
Réponse : b)
17. Quelle étape MapReduce transforme les données en couples clé/valeur ?
o a) Shuffle
o b) Map
o c) Reduce
o d) Split
Réponse : b)
18. Quel problème MapReduce v2 avec YARN résout-il ?
o a) La limitation à un seul type de tâche
o b) La lenteur de la réplication
o c) La gestion des métadonnées dans HDFS
o d) La faible tolérance aux pannes
Réponse : a)
19. Dans l’étape Reduce, les valeurs associées à chaque clé sont :
o a) Divisées par tâche
o b) Regroupées et traitées
o c) Ignorées si elles sont identiques
o d) Répliquées sur plusieurs DataNodes
Réponse : b)
20. Dans MapReduce, que se passe-t-il si un TaskTracker échoue ?
o a) Les données sont supprimées
o b) La tâche est redistribuée à un autre TaskTracker
o c) Le job entier échoue
o d) Le NameNode doit être redémarré
Réponse : b)
Résumé des fichiers et points importants pour un QCM
1. Introduction aux Big Data (fichier 1)
Résumé :
o Chaque jour, nous générons 2,5 trillions d’octets de données.
o 90% des données sont non structurées, issues de multiples sources (sites web,
téléphones, etc.).
o Défis majeurs : stockage, traitement, visualisation.
o Les 5V du Big Data : Volume, Variété, Vitesse, Véracité, Valeur.
o Les bases de données traditionnelles ne suffisent pas pour gérer ce volume.
o Technologies Big Data : Hadoop, bases NoSQL.
Points importants pour QCM :
o Les 5V du Big Data.
o Différence entre bases relationnelles et Big Data.
o Applications : prédiction météorologique, détection de conditions critiques.
o Historique et réduction du coût de stockage.
2. Bases de données NoSQL (fichier 2)
Résumé :
o Les bases NoSQL sont non relationnelles, flexibles et conçues pour le Big
Data.
o Types : Clé-valeur, Document, Colonne, Graphe.
o NoSQL vs SQL : pas de schéma fixe, évolutivité accrue.
o HBase : Base orientée colonne sur HDFS.
o Cas d’utilisation : réseaux sociaux, logs, IoT.
o Intégration avec Hadoop pour une gestion distribuée.
Points importants pour QCM :
o Types de bases NoSQL.
o Différences entre HDFS et HBase.
o Avantages de NoSQL (scalabilité, haute disponibilité).
o Comparaison entre bases orientées lignes et colonnes.
3. Traitements et architectures Big Data (fichier 3)
Résumé :
o Types de traitement : Batch, Streaming, Micro-batching.
o Architectures : Lambda (batch + temps réel) et Kappa (temps réel
uniquement).
o Outils : Hadoop, Spark, Kafka.
o Applications : surveillance bancaire, IoT.
o Défis : maintenir des flux en temps réel, coordonner des systèmes distribués.
Points importants pour QCM :
o Comparaison des types de traitement (Batch, Streaming, etc.).
o Avantages/inconvénients des architectures Lambda et Kappa.
o Rôles des outils comme Kafka et Spark.