Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage
Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage
2024-2025
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 1/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Plan de Présentation
1 Introduction 5 Monitoring
3 Réseau 7 Résultats
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 2/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 3/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Solution :
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Solution :
• Infrastructure distribuée économique
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources
• Monitoring en temps réel
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?
Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources
• Monitoring en temps réel
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Objectifs du Projet
á
Infrastructure Cluster
Installer et configurer
un cluster Slurm robuste
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Objectifs du Projet
á
Infrastructure Cluster
Installer et configurer
un cluster Slurm robuste
j
Modèles IA
Exécuter efficacement
DeepSeek et NanoGPT
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Objectifs du Projet
á
Infrastructure Cluster
Installer et configurer
¡
un cluster Slurm robuste
Monitoring Avancé
Système supervision
j
Prometheus + Grafana
Modèles IA
Exécuter efficacement
DeepSeek et NanoGPT
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Objectifs du Projet
á ¡
Infrastructure Cluster Monitoring Avancé
Installer et configurer Système supervision
un cluster Slurm robuste Prometheus + Grafana
j Ç
Modèles IA Solution Évolutive
Exécuter efficacement Infrastructure stable
DeepSeek et NanoGPT et extensible
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 6/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Parallélisme
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Parallélisme
Distribution
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Parallélisme
Agrégation
Distribution
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.
Parallélisme Agrégation
Distribution Synchronisation
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 8/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 9/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
SSH Sécurisé
Étapes clés :
1 Installation OpenSSH
2 Génération clés RSA
3 Distribution clés publiques
4 Test connexions sans mot
de passe
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 11/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Pourquoi Slurm ®
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Pourquoi Slurm ®
> Gestion fine et efficace des ressources
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)
¨ Planification intelligente des jobs
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
á Introduction à Slurm
Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul
Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)
¨ Planification intelligente des jobs
Ô Intégration avec outils modernes (Grafana, Prometheus)
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Architecture Slurm
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 13/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Concepts Fondamentaux
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Concepts Fondamentaux
• Maintient l’état du
cluster
• Planifie les tâches
• Communique avec les
nœuds
• Collecte les résultats
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Concepts Fondamentaux
• Maintient l’état du
cluster
• Planifie les tâches
• Communique avec les
nœuds
• Collecte les résultats
Partitions et Jobs
Ô Concepts Fondamentaux
Ô Concepts Fondamentaux
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.
Ô Étapes principales :
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.
Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.
Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.
2 Distribution sécurisée de cette clé sur tous les nœuds.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.
Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.
2 Distribution sécurisée de cette clé sur tous les nœuds.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
õ MySQL Database
Base de données centralisée
pour :
• Comptabilité des jobs
• Historique des tâches
• Gestion des utilisateurs
• Statistiques d’utilisation
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 16/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 16/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 17/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 18/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¡ Architecture monitoring
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 19/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¡ Système de Monitoring
õ Prometheus
Collecte de métriques :
• CPU, mémoire, réseau
• États des jobs Slurm
• Utilisation des nœuds
• Base de données temporelle
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¡ Système de Monitoring
õ Prometheus ¢ Grafana
Collecte de métriques : Visualisation temps réel :
• CPU, mémoire, réseau • Tableaux de bord interactifs
• États des jobs Slurm • Graphiques de performance
• Utilisation des nœuds • Alertes automatiques
• Base de données temporelle • Interface web intuitive
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¡ Système de Monitoring
õ Prometheus ¢ Grafana
Collecte de métriques : Visualisation temps réel :
• CPU, mémoire, réseau • Tableaux de bord interactifs
• États des jobs Slurm • Graphiques de performance
• Utilisation des nœuds • Alertes automatiques
• Base de données temporelle • Interface web intuitive
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Targets Prometheus
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 21/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 22/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 23/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 24/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Configuration et Exécution
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Configuration et Exécution
Ô Configuration
Environnement
Préparation :
• Environnement virtuel
Python
• Installation dépendances
PyTorch
• Clonage projet NanoGPT
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Ô Configuration et Exécution
Ô Configuration
Environnement Ç Exécution sur Cluster
Préparation : Script Slurm :
• Environnement virtuel • 4 CPU par tâche
Python • Partition CPU dédiée
• Installation dépendances • Durée limitée 30 minutes
PyTorch • Monitoring en temps réel
• Clonage projet NanoGPT
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Exemple Script
Script Slurm
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 26/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 27/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¢ Résultats de Monitoring
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 28/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¢ Résultats de Monitoring
¥ Métriques Observées
• Cpus Alloc : 4 Cpus • Jobs utilisateur : 1 job en cours
• Noeuds Alloc : 2 • Nœuds alloués : 1 nœud réservé
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 28/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¢ Résultats de Monitoring
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 29/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¢ Résultats de Monitoring
¥ Métriques Observées
• Cpus Alloc : 6 Cpus • Jobs utilisateur : 1 job en cours
• Noeuds Alloc : 3 • utilisateur : urpima
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 29/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Succès Obtenus
• Cluster opérationnel avec
11 nœuds
• Monitoring temps réel
fonctionnel
• Exécution IA validée avec
NanoGPT
• Gestion ressources
optimisée
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 30/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 30/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
1 Introduction
2 Calcul Distribué
3 Réseau
4 Slurm
5 Monitoring
6 Tests
7 Résultats
8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 31/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¥ Objectifs Atteints
• Infrastructure HPC complète avec Slurm opérationnel
• Système de monitoring avancé Prometheus + Grafana
• Validation pratique avec exécution de modèles IA
• Solution économique adaptée aux ressources disponibles
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 32/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
¥ Objectifs Atteints
• Infrastructure HPC complète avec Slurm opérationnel
• Système de monitoring avancé Prometheus + Grafana
• Validation pratique avec exécution de modèles IA
• Solution économique adaptée aux ressources disponibles
Ç Perspectives d’Amélioration
• Sécurité avancée (VPN,
• Intégration GPU
MFA)
complète
• Modèles IA plus
• Scalabilité horizontale
complexes
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 32/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 33/33