0% ont trouvé ce document utile (0 vote)
450 vues3 pages

Examen Final

Le document est un examen final pour un cours de Big Data et Science de Données, comprenant des questions à choix multiples, des réponses courtes et des questions à développement. Les sujets abordés incluent les concepts clés du Big Data, les applications de la science des données, et les défis liés à la parallélisation des applications. Les étudiants doivent démontrer leur compréhension des outils, des paradigmes et des techniques utilisés dans le domaine.

Transféré par

Rahim Abba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
450 vues3 pages

Examen Final

Le document est un examen final pour un cours de Big Data et Science de Données, comprenant des questions à choix multiples, des réponses courtes et des questions à développement. Les sujets abordés incluent les concepts clés du Big Data, les applications de la science des données, et les défis liés à la parallélisation des applications. Les étudiants doivent démontrer leur compréhension des outils, des paradigmes et des techniques utilisés dans le domaine.

Transféré par

Rahim Abba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

M1 IDO

Université Mohamed Boudiaf M’sila


M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes

Examen Final
Big Data et Science de Données

Exercice 1 : (QCM) (7.5 points)

1. Quel concept est central dans le Big Data pour gérer des données provenant de plusieurs sources ?
a) Mémoire cache
b) Système distribué
c) Processeur multi-cœur
d) Mémoire locale
2. Parmi les types de données suivants, lequel est considéré comme non structuré ?
a) Fichier Excel
b) Base de données relationnelle
c) Image
d) d) Transaction SQL
3. Lequel des paradigmes suivants est utilisé dans le modèle Map-Reduce ?
a) SIMD
b) SPMD
c) NUMA
d) PCIe q
4. La véracité des données fait référence à :
a) La vitesse de traitement des données
b) La qualité et la fiabilité des données
c) La quantité de données générées
d) La diversité des formats de données
5. Les outils comme Hadoop et Spark sont principalement utilisés pour :
a) Gérer des threads dans un système d'exploitation
b) Faciliter le calcul distribué et le traitement des grandes quantités de données
c) Créer des images graphiques
d) Optimiser les disques durs

Exercice 2 : (7.5 points)

1. Expliquez brièvement ce que sont les 5 V du Big Data.


2. Donnez deux exemples concrets d'applications de la science des données dans le secteur de la santé.
3. Décrivez la différence entre un cluster et un cloud.
4. Quelle est la fonction principale d'un accélérateur matériel dans le calcul parallèle ?
5. En quoi le paradigme Map-Reduce permet-il de traiter de grandes quantités de données de manière efficace ?

Exercice 3 : (5 points)

1. Décrivez le schéma de parallélisation SPMD. Quels sont ses avantages et ses limites ?
2. Analysez les défis liés à la parallélisation des applications pour le traitement de plus gros problèmes.
Proposez des solutions pour optimiser ces traitements.

Bon courage
M1 IDO
Université Mohamed Boudiaf M’sila
M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes

Exercice 1 : Questions à choix multiples (QCM) (7.5 points)

1. Quel concept est central dans le Big Data pour gérer des données provenant de plusieurs sources ? Réponse :
b) Système distribué
2. Parmi les types de données suivants, lequel est considéré comme non structuré ? Réponse : c) Image
3. Lequel des paradigmes suivants est utilisé dans le modèle Map-Reduce ? Réponse : b) SPMD
4. La véracité des données fait référence à : Réponse : b) La qualité et la fiabilité des données
5. Les outils comme Hadoop et Spark sont principalement utilisés pour : Réponse : b) Faciliter le calcul
distribué et le traitement des grandes quantités de données

Exercice 2 : Questions à réponse courte (7.5 points)

1. Expliquez brièvement ce que sont les 5 V du Big Data. Réponse : Les 5 V du Big Data sont :
o Volume : Grande quantité de données générées
o Vélocité : Vitesse à laquelle les données sont produites
o Variété : Différents types de données (structurées, semi-structurées, non structurées)
o Véracité : Qualité et fiabilité des données
o Valeur : Potentiel des données à fournir des informations exploitables
2. Donnez deux exemples concrets d'applications de la science des données dans le secteur de la santé. Réponse
:
o Médecine personnalisée : Analyse des dossiers médicaux pour adapter les traitements
o Prévision des épidémies : Anticipation de la propagation des maladies
3. Décrivez la différence entre un cluster et un cloud. Réponse :
o Un cluster est un ensemble de machines connectées par un réseau local et travaillant ensemble pour
exécuter des tâches spécifiques.
o Un cloud permet de louer des ressources informatiques à distance, sans garantie sur la proximité
physique des machines.
4. Quelle est la fonction principale d'un accélérateur matériel dans le calcul parallèle ? Réponse : Un
accélérateur matériel permet d'exécuter des calculs massivement parallèles, augmentant ainsi la vitesse de
traitement des données.
5. En quoi le paradigme Map-Reduce permet-il de traiter de grandes quantités de données de manière efficace ?
Réponse : Le paradigme Map-Reduce divise les tâches en sous-tâches (Map) qui peuvent être traitées en
parallèle, puis regroupe les résultats (Reduce), ce qui permet de traiter de grandes quantités de données de
manière distribuée.

Exercice 3 : Questions à développement (5 points)

1. (2.5 points) Décrivez le schéma de parallélisation SPMD. Quels sont ses avantages et ses limites ? Réponse :
o Le schéma SPMD (Single Program Multiple Data) consiste à exécuter un même programme en
parallèle sur plusieurs données. Chaque tâche exécute le même code mais sur des ensembles de
données différents.
o Avantages : Facile à mettre en œuvre, flexible pour différents types de données.
o Limites : Peut nécessiter des points de synchronisation explicites, et l'équilibrage des charges entre
les tâches peut être complexe.
2. (2.5 points) Analysez les défis liés à la parallélisation des applications pour le traitement de plus gros
problèmes. Proposez des solutions pour optimiser ces traitements. Réponse :
o Défis :
 Gestion des données distribuées
 Synchronisation des tâches
M1 IDO
Université Mohamed Boudiaf M’sila
M’sila, Le 15/01/2025
Faculté MI, Dépt Informatique
Durée : 90 Minutes
 Latence des communications entre machines
o Solutions :
 Utilisation d'architectures NUMA pour optimiser l'accès à la mémoire
 Application de protocoles de synchronisation adaptés, comme les barrières de
synchronisation
 Adoption de frameworks comme Hadoop pour simplifier le développement des applications
parallèles

Vous aimerez peut-être aussi