M1 IDO
Université Mohamed Boudiaf M’sila
M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes
Examen Final
Big Data et Science de Données
Exercice 1 : (QCM) (7.5 points)
1. Quel concept est central dans le Big Data pour gérer des données provenant de plusieurs sources ?
a) Mémoire cache
b) Système distribué
c) Processeur multi-cœur
d) Mémoire locale
2. Parmi les types de données suivants, lequel est considéré comme non structuré ?
a) Fichier Excel
b) Base de données relationnelle
c) Image
d) d) Transaction SQL
3. Lequel des paradigmes suivants est utilisé dans le modèle Map-Reduce ?
a) SIMD
b) SPMD
c) NUMA
d) PCIe q
4. La véracité des données fait référence à :
a) La vitesse de traitement des données
b) La qualité et la fiabilité des données
c) La quantité de données générées
d) La diversité des formats de données
5. Les outils comme Hadoop et Spark sont principalement utilisés pour :
a) Gérer des threads dans un système d'exploitation
b) Faciliter le calcul distribué et le traitement des grandes quantités de données
c) Créer des images graphiques
d) Optimiser les disques durs
Exercice 2 : (7.5 points)
1. Expliquez brièvement ce que sont les 5 V du Big Data.
2. Donnez deux exemples concrets d'applications de la science des données dans le secteur de la santé.
3. Décrivez la différence entre un cluster et un cloud.
4. Quelle est la fonction principale d'un accélérateur matériel dans le calcul parallèle ?
5. En quoi le paradigme Map-Reduce permet-il de traiter de grandes quantités de données de manière efficace ?
Exercice 3 : (5 points)
1. Décrivez le schéma de parallélisation SPMD. Quels sont ses avantages et ses limites ?
2. Analysez les défis liés à la parallélisation des applications pour le traitement de plus gros problèmes.
Proposez des solutions pour optimiser ces traitements.
Bon courage
M1 IDO
Université Mohamed Boudiaf M’sila
M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes
Exercice 1 : Questions à choix multiples (QCM) (7.5 points)
1. Quel concept est central dans le Big Data pour gérer des données provenant de plusieurs sources ? Réponse :
b) Système distribué
2. Parmi les types de données suivants, lequel est considéré comme non structuré ? Réponse : c) Image
3. Lequel des paradigmes suivants est utilisé dans le modèle Map-Reduce ? Réponse : b) SPMD
4. La véracité des données fait référence à : Réponse : b) La qualité et la fiabilité des données
5. Les outils comme Hadoop et Spark sont principalement utilisés pour : Réponse : b) Faciliter le calcul
distribué et le traitement des grandes quantités de données
Exercice 2 : Questions à réponse courte (7.5 points)
1. Expliquez brièvement ce que sont les 5 V du Big Data. Réponse : Les 5 V du Big Data sont :
o Volume : Grande quantité de données générées
o Vélocité : Vitesse à laquelle les données sont produites
o Variété : Différents types de données (structurées, semi-structurées, non structurées)
o Véracité : Qualité et fiabilité des données
o Valeur : Potentiel des données à fournir des informations exploitables
2. Donnez deux exemples concrets d'applications de la science des données dans le secteur de la santé. Réponse
:
o Médecine personnalisée : Analyse des dossiers médicaux pour adapter les traitements
o Prévision des épidémies : Anticipation de la propagation des maladies
3. Décrivez la différence entre un cluster et un cloud. Réponse :
o Un cluster est un ensemble de machines connectées par un réseau local et travaillant ensemble pour
exécuter des tâches spécifiques.
o Un cloud permet de louer des ressources informatiques à distance, sans garantie sur la proximité
physique des machines.
4. Quelle est la fonction principale d'un accélérateur matériel dans le calcul parallèle ? Réponse : Un
accélérateur matériel permet d'exécuter des calculs massivement parallèles, augmentant ainsi la vitesse de
traitement des données.
5. En quoi le paradigme Map-Reduce permet-il de traiter de grandes quantités de données de manière efficace ?
Réponse : Le paradigme Map-Reduce divise les tâches en sous-tâches (Map) qui peuvent être traitées en
parallèle, puis regroupe les résultats (Reduce), ce qui permet de traiter de grandes quantités de données de
manière distribuée.
Exercice 3 : Questions à développement (5 points)
1. (2.5 points) Décrivez le schéma de parallélisation SPMD. Quels sont ses avantages et ses limites ? Réponse :
o Le schéma SPMD (Single Program Multiple Data) consiste à exécuter un même programme en
parallèle sur plusieurs données. Chaque tâche exécute le même code mais sur des ensembles de
données différents.
o Avantages : Facile à mettre en œuvre, flexible pour différents types de données.
o Limites : Peut nécessiter des points de synchronisation explicites, et l'équilibrage des charges entre
les tâches peut être complexe.
2. (2.5 points) Analysez les défis liés à la parallélisation des applications pour le traitement de plus gros
problèmes. Proposez des solutions pour optimiser ces traitements. Réponse :
o Défis :
Gestion des données distribuées
Synchronisation des tâches
M1 IDO
Université Mohamed Boudiaf M’sila
M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes
Latence des communications entre machines
o Solutions :
Utilisation d'architectures NUMA pour optimiser l'accès à la mémoire
Application de protocoles de synchronisation adaptés, comme les barrières de
synchronisation
Adoption de frameworks comme Hadoop pour simplifier le développement des applications
parallèles