0% ont trouvé ce document utile (0 vote)
24 vues75 pages

Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage

Transféré par

mohamedlemin23014
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues75 pages

Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage

Transféré par

mohamedlemin23014
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Mise en place et optimisation d’un cluster Slurm


Pour l’exécution de grands modèles de langage

Taleb El Mokhtar Mohamed Mine I19405


Ousmane Bocar Gueye I19533

ISCAE Nouakchott - URPIMA

2024-2025

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 1/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Plan de Présentation

1 Introduction 5 Monitoring

2 Calcul Distribué 6 Tests

3 Réseau 7 Résultats

Slurm & Installa-


4
tion 8 Conclusion

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 2/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 3/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Solution :

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Solution :
• Infrastructure distribuée économique

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources
• Monitoring en temps réel

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

. Problématique & Contexte

Problematique ®
Comment concevoir, déployer et exploiter un cluster de calcul
hétérogène basé sur Slurm pour exécuter efficacement des modèles
de langage tout en maximisant les ressources et minimisant les
coûts ?

Solution :
• Infrastructure distribuée économique
• Gestion intelligente des ressources
• Monitoring en temps réel

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 4/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Objectifs du Projet

á
Infrastructure Cluster
Installer et configurer
un cluster Slurm robuste

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Objectifs du Projet

á
Infrastructure Cluster
Installer et configurer
un cluster Slurm robuste

j
Modèles IA
Exécuter efficacement
DeepSeek et NanoGPT

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Objectifs du Projet

á
Infrastructure Cluster
Installer et configurer
¡
un cluster Slurm robuste
Monitoring Avancé
Système supervision
j
Prometheus + Grafana
Modèles IA
Exécuter efficacement
DeepSeek et NanoGPT

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Objectifs du Projet

á ¡
Infrastructure Cluster Monitoring Avancé
Installer et configurer Système supervision
un cluster Slurm robuste Prometheus + Grafana

j Ç
Modèles IA Solution Évolutive
Exécuter efficacement Infrastructure stable
DeepSeek et NanoGPT et extensible

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 5/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 6/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Parallélisme

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Parallélisme

Distribution

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Parallélisme
Agrégation
Distribution

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

 Calcul Distribué & HPC

Définition
Consiste à répartir une tâche complexe sur plusieurs machines
interconnectées qui travaillent simultanément pour résoudre un
problème commun.

Parallélisme Agrégation

Distribution Synchronisation

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 7/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 8/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Z Configuration Réseau Local

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 9/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

ø Configuration SSH & NFS

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

ø Configuration SSH & NFS

SSH Sécurisé
Étapes clés :
1 Installation OpenSSH
2 Génération clés RSA
3 Distribution clés publiques
4 Test connexions sans mot
de passe

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

ø Configuration SSH & NFS

SSH Sécurisé g NFS Partagé


Étapes clés : Configuration :
1 Installation OpenSSH 1 Serveur NFS sur master
2 Génération clés RSA 2 Répertoire /nfs partagé
3 Distribution clés publiques 3 Montage automatique
4 Test connexions sans mot 4 Accès uniforme aux
de passe données

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

ø Configuration SSH & NFS

SSH Sécurisé g NFS Partagé


Étapes clés : Configuration :
1 Installation OpenSSH 1 Serveur NFS sur master
2 Génération clés RSA 2 Répertoire /nfs partagé
3 Distribution clés publiques 3 Montage automatique
4 Test connexions sans mot 4 Accès uniforme aux
de passe données

¥ Résultat : Communication fluide


et sécurisée entre tous les nœuds

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 10/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 11/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Pourquoi Slurm ®

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Pourquoi Slurm ®
> Gestion fine et efficace des ressources

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)
¨ Planification intelligente des jobs

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

á Introduction à Slurm

Slurm
Slurm (Simple Linux Utility for Resource Management) est un
gestionnaire de tâches open-source utilisé pour planifier et allouer
les ressources dans les clusters de calcul

Pourquoi Slurm ®
> Gestion fine et efficace des ressources
á Scalabilité (jusqu’à des milliers de nœuds)
¨ Planification intelligente des jobs
Ô Intégration avec outils modernes (Grafana, Prometheus)

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 12/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Architecture Slurm

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 13/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Concepts Fondamentaux

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Concepts Fondamentaux

Nœud maître (Controller)

• Maintient l’état du
cluster
• Planifie les tâches
• Communique avec les
nœuds
• Collecte les résultats

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Concepts Fondamentaux

Nœud maître (Controller)

• Maintient l’état du
cluster
• Planifie les tâches
• Communique avec les
nœuds
• Collecte les résultats
Partitions et Jobs

• Partition = file d’attente


• Job = tâche soumise
• Types : Batch, Interactif,
Array
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Concepts Fondamentaux

Nœud maître (Controller)


Quality of Service (QoS)
• Maintient l’état du
• Politiques différenciées
cluster
• Limites par utilisateur
• Planifie les tâches
• Priorités et quotas
• Communique avec les
nœuds
• Collecte les résultats
Partitions et Jobs

• Partition = file d’attente


• Job = tâche soumise
• Types : Batch, Interactif,
Array
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Concepts Fondamentaux

Nœud maître (Controller)


Quality of Service (QoS)
• Maintient l’état du
• Politiques différenciées
cluster
• Limites par utilisateur
• Planifie les tâches
• Priorités et quotas
• Communique avec les
nœuds
• Collecte les résultats
Partitions et Jobs
Nœuds de calcul
• Partition = file d’attente
• Exécutent les tâches
• Job = tâche soumise
• Hébergent le démon
• Types : Batch, Interactif, slurmd
Array
• Envoient les statuts
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 14/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.

Ô Étapes principales :

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.

Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.

Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.
2 Distribution sécurisée de cette clé sur tous les nœuds.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Munge pour la Sécurité

Qu’est-ce que Munge ®


Munge est un service d’authentification open-source permettant de
sécuriser les échanges et authentifier les composants du cluster
Slurm via une clé secrète partagée.

Fonctionnement ®
• Garantit que seuls les nœuds autorisés puissent accéder aux
ressources du cluster.

Ô Étapes principales :
1 Génération d’une clé sur le nœud maître.
2 Distribution sécurisée de cette clé sur tous les nœuds.
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 15/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

õ Installation & Configuration

õ MySQL Database
Base de données centralisée
pour :
• Comptabilité des jobs
• Historique des tâches
• Gestion des utilisateurs
• Statistiques d’utilisation

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 16/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

õ Installation & Configuration

õ MySQL Database Ô Services Slurm


Base de données centralisée Démons principaux :
pour : • slurmctld : Contrôleur
• Comptabilité des jobs principal
• Historique des tâches • slurmd : Démon sur
chaque nœud
• Gestion des utilisateurs
• slurmdbd : Interface base
• Statistiques d’utilisation
de données

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 16/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Gestions Utilisateurs et Groupes

² Gestion des Utilisateurs


Création de comptes et utilisateurs avec sacctmgr :
• Compte EtudiantISCAE pour le groupe de recherche
• Utilisateurs Ousmane et Taleb associés au compte
• Configuration des quotas et priorités

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 17/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 18/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¡ Architecture monitoring

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 19/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¡ Système de Monitoring

õ Prometheus
Collecte de métriques :
• CPU, mémoire, réseau
• États des jobs Slurm
• Utilisation des nœuds
• Base de données temporelle

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¡ Système de Monitoring

õ Prometheus ¢ Grafana
Collecte de métriques : Visualisation temps réel :
• CPU, mémoire, réseau • Tableaux de bord interactifs
• États des jobs Slurm • Graphiques de performance
• Utilisation des nœuds • Alertes automatiques
• Base de données temporelle • Interface web intuitive

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¡ Système de Monitoring

õ Prometheus ¢ Grafana
Collecte de métriques : Visualisation temps réel :
• CPU, mémoire, réseau • Tableaux de bord interactifs
• États des jobs Slurm • Graphiques de performance
• Utilisation des nœuds • Alertes automatiques
• Base de données temporelle • Interface web intuitive

4 Architecture : Exporters → Pro-


metheus → Grafana → Dashboards

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 20/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Targets Prometheus

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 21/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 22/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Acceder au cluster slurm

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 23/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Verification ressource disponible

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 24/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Configuration et Exécution

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Configuration et Exécution

Ô Configuration
Environnement
Préparation :
• Environnement virtuel
Python
• Installation dépendances
PyTorch
• Clonage projet NanoGPT

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Ô Configuration et Exécution

Ô Configuration
Environnement Ç Exécution sur Cluster
Préparation : Script Slurm :
• Environnement virtuel • 4 CPU par tâche
Python • Partition CPU dédiée
• Installation dépendances • Durée limitée 30 minutes
PyTorch • Monitoring en temps réel
• Clonage projet NanoGPT

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 25/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

Exemple Script

Script Slurm

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 26/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 27/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¢ Résultats de Monitoring

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 28/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¢ Résultats de Monitoring

¥ Métriques Observées
• Cpus Alloc : 4 Cpus • Jobs utilisateur : 1 job en cours
• Noeuds Alloc : 2 • Nœuds alloués : 1 nœud réservé
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 28/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¢ Résultats de Monitoring

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 29/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¢ Résultats de Monitoring

¥ Métriques Observées
• Cpus Alloc : 6 Cpus • Jobs utilisateur : 1 job en cours
• Noeuds Alloc : 3 • utilisateur : urpima
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 29/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¥ Synthèse des Résultats

Œ Succès Obtenus
• Cluster opérationnel avec
11 nœuds
• Monitoring temps réel
fonctionnel
• Exécution IA validée avec
NanoGPT
• Gestion ressources
optimisée

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 30/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

¥ Synthèse des Résultats

Œ Succès Obtenus . Défis Rencontrés


• Cluster opérationnel avec • Limitations GPU pour
11 nœuds DeepSeek
• Monitoring temps réel • Adaptation CPU-only
fonctionnel nécessaire
• Exécution IA validée avec • Configuration réseau
NanoGPT complexe
• Gestion ressources • Synchronisation services
optimisée délicate

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 30/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

1 Introduction

2 Calcul Distribué

3 Réseau

4 Slurm

5 Monitoring

6 Tests

7 Résultats

8 Conclusion
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 31/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

b Conclusion & Perspectives

¥ Objectifs Atteints
• Infrastructure HPC complète avec Slurm opérationnel
• Système de monitoring avancé Prometheus + Grafana
• Validation pratique avec exécution de modèles IA
• Solution économique adaptée aux ressources disponibles

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 32/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

b Conclusion & Perspectives

¥ Objectifs Atteints
• Infrastructure HPC complète avec Slurm opérationnel
• Système de monitoring avancé Prometheus + Grafana
• Validation pratique avec exécution de modèles IA
• Solution économique adaptée aux ressources disponibles

Ç Perspectives d’Amélioration
• Sécurité avancée (VPN,
• Intégration GPU
MFA)
complète
• Modèles IA plus
• Scalabilité horizontale
complexes
Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 32/33
Introduction Calcul Distribué Réseau Slurm Monitoring Tests Résultats Conclusion

® Questions & Discussion

Merci pour votre attention


Questions & Discussion

Taleb El Mokhtar Mohamed Mine I19405 Ousmane Bocar Gueye I19533 ISCAE Nouakchott - URPIMA
Mise en place et optimisation d’un cluster Slurm 33/33

Vous aimerez peut-être aussi