0% ont trouvé ce document utile (0 vote)

65 vues553 pages

Calcul Parallele

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

65 vues553 pages

Calcul Parallele

Transféré par

amazon

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au calcul parallèle

Céline Acary-Robert, Frédéric Audra, Glenn Cougoulat, Albanne Lecointre, Violaine

Louvet, Franck Pérignon, Alizia Tarayoun

Mars 2025

This work is licensed under CC BY-NC-SA 4.0.

1 / 488
Généralités autour du calcul parallèle

Violaine Louvet, Franck Pérignon

Mars 2025

This work is licensed under CC BY-NC-SA 4.0.

2 / 488
Introduction au calcul parallèle - Contexte et motivations
Calcul parallèle ?
Pour quoi faire ?
Comment ?
Quels modèles, quels langages ?
…
Introduction
Les bases, le vocabulaire, les concepts, les
pistes pour aller plus loin, une approche
pratique d’OpenMP et MPI.

3 / 488
Introduction au calcul parallèle - Contexte et motivations
Calcul parallèle ?
Pour quoi faire ?
Comment ?
Quels modèles, quels langages ?
…
Introduction
Les bases, le vocabulaire, les concepts, les
pistes pour aller plus loin, une approche
pratique d’OpenMP et MPI.
Notre but (souhait …)
Concrétiser pour vous ce qu’est le “calcul parallèle”, vous donner les bases et les
pistes pour approfondir et appliquer cela à vos codes.
Vous apprendre à utiliser les ressources en calcul à Grenoble .
3 / 488
Avant de commencer, un peu de contexte ...

4 / 488
Pourquoi ce cours?
Un module :
Introduction au calcul parallèle

... dans un ensemble de formations transverses proposées par le collège doctoral, le bloc
outils numériques et méthodologie pour la recherche.

en partenariat avec et

Pour commencer, nous allons donc :

• présenter nos sponsors
• vous dire en quoi les autres modules pourraient vous intéresser

5 / 488
L’UAR GRICAD - GRenoble Infra CAlcul et Données
Unité multi-tutelles (CNRS, UGA, GINP, INRIA) d’Appui à la Recherche

Missions:
• Accompagnement/conseils aux chercheurs sur les besoins liés au calcul et aux
données
• Mise à disposition d’infrastructures avancées et mutualisées pour le calcul
intensif et l’exploitation des données de la recherche
• Participation aux infrastructures généralistes du site : hébergement, stockage et
virtualisation
• Interaction forte avec les laboratoires
• 2ème étage du batiment IMAG.
• https:// gricad.univ-grenoble-alpes.fr/
• Contact : [email protected]
6 / 488
Les services proposés par GriCAD

7 / 488
Maison de la Modélisation et de la Simulation
Nanosciences et Environnement

8 / 488
Formations transverses CED - Outils pour le traitement de
données, le développement logiciel et le calcul scientifique

Accès aux documents (ce cours et les autres):

https:// pole-calcul-formation.gricad-pages.univ-grenoble-alpes.fr/ ced/
Les formations :
• Les bases du systeme linux pour le calcul scientifique
• Gestion de projets et developpement collaboratifs - utilisation de la plateforme
gricad-gitlab
• Des sources a l’executable : la chaine de compilation
Introduction au calcul parallele

9 / 488
Formations transverses CED - D’autres formations qui
peuvent vous intéresser

• Autour de la gestion de vos données de recherche

• Autour de la diffusion des données de recherche
• Autour des bonnes pratiques de développement de codes, et la diffusion des codes
• A venir à l’automne, un module sur la reproductibilité.

Accès aux documents

10 / 488
Contexte et présentation du module

Introduction au calcul parallèle - Contexte et motivations

Notre point de départ : une application, un code de calcul, fonctionnel et optimisé , qui
tourne en séquentiel .

Calcul séquentiel :
• exécution d’instructions étape par étape,
• que les opérations soient indépendantes ou non,
• a priori sur une seule ressource.

11 / 488
Contexte et présentation du module

Introduction au calcul parallèle - Contexte et motivations

Mais …
• Ce code a atteint ses limites de performances ?
• trop coûteux (Temps de calcul, mémoire ...),
• les volumes de données à traiter sont trop importants, trop longs à écrire,
• les performances sont moins bonnes que sur des machines plus vieilles, …
• Volonté ou nécessité d’exploiter de nouvelles ressources ?
• mutualisation de ressources (cluster …),
• problématique du coût financier et/ou environnemental (conso électrique etc),
Bref votre code n’est plus adapté aux nouvelles ressources et/ou ses performances ne
sont pas satisfaisantes.
Quelles solutions ? ⇒ HPC et calcul parallèle .

12 / 488
Contexte et présentation du module

HPC : High Performance Computing

• Exploiter au mieux les ressources, améliorer les performances : vitesse (Flops …),
mémoire, réseau, disque.
• Paralléliser

Calculer en parallèle : effectuer plusieurs calculs simultanés sur différentes ressources.

13 / 488
Contexte et présentation du module

HPC : High Performance Computing

• Exploiter au mieux les ressources, améliorer les performances : vitesse (Flops …),
mémoire, réseau, disque.
• Paralléliser

Calculer en parallèle : effectuer plusieurs calculs simultanés sur différentes ressources.

Comment ? Par décomposition du problème en plusieurs sous problèmes plus “petits”.
• data parallelism (“fine grain”) : découper/ distribuer les données ,
• task parallelism (“coarse grain”) : identifier des tâches indépendantes ,
⇒ plusieurs tâches ou sous-problèmes plus ou moins autonomes qui pourront être
traités simultanément, de manière asynchrone.
Mots-clés : distribution des données, distribution des tâches, communication entre les
ressources (échanges), synchronisation …
13 / 488
Contexte et présentation du module

Quels bénéfices attendre de la parallélisation ?

Améliorer les performances
• Aller plus vite ! Obtenir une solution au problème plus rapidement.
temps_sequentiel
dans l’idéal : temps_sequentiel → temps_parallele = nombre_ressources
• Résoudre des problèmes (beaucoup) plus grands .
• Traiter des volumes de données plus importants.
Mieux (?) exploiter les ressources
• Mutualiser, partager les ressources.
• Baisser les coûts, la consommation électrique ?
• …
Mais ce n’est pas gratuit !

14 / 488
Contexte et présentation du module

Pour quel prix ?

• Un prix à payer en terme de développements.

• Conception du logiciel à revoir (probablement).
• Adaptation nécessaire des algorithmes et des méthodes utilisées.
• Apprentissage de nouveaux langages, outils (debug …).
• Utilisation/exploitation plus complexe.
• Très dépendant des architectures : il faudra les connaître, avoir une idée de leur
évolution etc. La portabilité et la modularité deviennent cruciales.

15 / 488
Contexte et présentation du module

Pour quel prix ?

En conséquence, avant de pouvoir paralléliser il sera nécessaire de

• Comprendre et connaître l’architecture des ressources disponibles, pour les choisir
correctement et les exploiter pleinement.
• Comprendre le comportement du programme , des algorithmes, pour pouvoir
l’adapter, choisir les bonnes méthodes (potentiellement différentes de celles
utilisées en séquentiel).
• Connaître les modèles de programmation parallèle.

16 / 488
Contexte et présentation du module

Organisation de la séance

1 Contexte et présentation du module

Pourquoi ?
2 Avant de paralléliser : connaitre et comprendre les ressources

3 Quelles architectures aujourd’hui ?

Où ?
4 Impact environnemental

5 Les modèles de programmation parallèle Comment ?

6 Comment paralléliser ?
17 / 488
Contexte et présentation du module

Organisation du module et planning

1 Généralités autour du calcul parallèle (12 mars 2025)

2 Accès et utilisation des ressources grenobloises (13 mars 2025)

3 Calcul en mémoire partagée, OpenMP (13, 14 mars 2025)

4 Calcul sur grille (17 mars 2025)

5 Calcul sur carte graphique (GPU) (20 mars 2025)

6 Calcul en mémoire distribuée, MPI (21, 26, 28 mars 2025)

Planning : voir https:// pole-calcul-formation.gricad-pages.

univ-grenoble-alpes.fr/ ced/ infos_pratiques/

18 / 488
Contexte et présentation du module

Infos pratiques

• Salle, accès et contacts : voir

https:// pole-calcul-formation.gricad-pages.univ-grenoble-alpes.fr/ ced/ infos_
pratiques/ .
• Accès aux documents - Tous les cours sont accessibles sur le site :
https:// pole-calcul-formation.gricad-pages.univ-grenoble-alpes.fr/ ced/
Accès aux exercices et solutions :
• avoir un compte sur la plateforme
https:// gricad-gitlab.univ-grenoble-alpes.fr
• projet pole-calcul-formation/introduction-au-calcul-parallele/training

19 / 488
Contexte et présentation du module

Rappel des pré-requis indispensables

• Etre à l’aise avec la ligne de commande ( unix/linux ou WSL pour Windows)
• Savoir utiliser gricad-gitlab et git (indispensable pour les exercices/démos)
• Maitriser la chaîne de production d’un exécutable ( compilation/édition de lien ) et
connaitre les bases de l’utilisation de CMake
• Connaitre au moins un langage de programmation (C/C++ ou Fortran). Les
exercices seront dans l’un ou l’autre langage, parfois les deux.
de très bonnes formations à l’IDRIS en fortran ou C
• Et surtout, connaître son identifiant agalan et le password associé !
Pour les trois premiers points, voir les différents modules disponibles dans
https:// pole-calcul-formation.gricad-pages.univ-grenoble-alpes.fr/
ced/ plans_modules/ .
20 / 488
Contexte et présentation du module

Tour de table

Merci de vous présenter brièvement (école doctorale, sujet de thèse …)

• Quelle est votre expérience en calcul parallèle ?

• Qu’attendez vous de ce module (Culture générale, un cas d’usage concret …) ?
• Avez vous des questions sur les autres modules ? Des suggestions de nouveaux
cours ?

21 / 488
Avant de paralléliser : connaitre et comprendre les ressources

4 Impact environnemental
1 Contexte et présentation du module
5 Les modèles de programmation
parallèle
2 Avant de paralléliser : connaitre et
comprendre les ressources
6 Comment paralléliser ?
3 Quelles architectures aujourd’hui ?
7 Conclusion

22 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Comment paralléliser ?
Première étape indispensable : connaître et comprendre les ressources, les architectures.
Architecture, hardware, ressources

Choix, portage vers … Adaptation, modification du code, des algos

Algos, méthodes, types de problèmes

Nous allons passer en revue les différentes “familles” de systèmes/architectures et

introduire tout le vocabulaire nécessaire à une bonne compréhension du parallélisme.
1 Les ressources : lexique, fonctionnement d’un processeur, principales notions
“hardware” à connaître.
2 Architectures disponibles : état des lieux, évolutions et tendances.
3 Quels types de parallélisme pour quelles architectures ?
23 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Les grands types d’usage du calcul

24 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Quels parallélismes pour quelles architectures ?

Nous allons voir qu’il existe différents types de parallélismes, fortement liés à
l’architecture du “calculateur” utilisé.
• Parallélisme “hardware”, au niveau du processeur (instructions …).
• Parallélisme par vectorisation, “SIMD”.
• Parallélisme intra-noeud, systèmes à mémoire partagée.
• Utilisation d’accélérateurs (GPUs).
• Parallélisme par échange de messages, entre des “noeuds” de calcul, systèmes à
mémoire distribuée.
• Parallélisme “embarrassant” (embarassingly parallel).
Nous allons aborder ces différents points, d’abord du point de vue “hardware” puis
ensuite du point de vue des modèles et langages.
25 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Comprendre et connaître l’architecture des ressources

Avant de paralléliser, un point sur ce qu’il

faut connaître: vocabulaire, système,
hardware, …
• une partie qui calcule : horloge, ALU,
FPU, cycle, pile d’instruction …
• une partie qui lit/écrit :
mémoire, hiérarchie, cache, registre
• une partie qui discute, échange : bus,
réseau
• une partie qui sauvegarde : disque,
système de fichiers
26 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

27 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

28 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

29 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

30 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

31 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

32 / 488
Avant de paralléliser : connaitre et comprendre les ressources

L’objectif
Connaître les éléments d’un supercalculateur

33 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Architecture d’un processeur (CPU)

Le processeur/CPU est l’ensemble matériel qui fournit la
puissance de calcul.
Sa puissance dépend:
• du nombre de cœurs: noyaux de calcul,
• de la taille de sa mémoire cache (différents niveaux:
L1, L2, L3),
• de sa fréquence d’horloge (mesurée en GHz) = vitesse
cpuinfo, hwloc-ls
de fonctionnement du processeur.
On trouve aussi:
• des unités de contrôle qui permettent de synchroniser les différents éléments du
processeur,
• des unités d’arithmétique et logique qui prennent en charge les calculs arithmétiques,
• des unités de calcul flottant qui prennent en charge les calculs flottants,
• de registres, qui sont des mémoires de petite taille (quelques octets), qui permettent de
garder les informations proche des unités de calcul.
34 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Fonctionnement d’un processeur - Fréquence et cycle

horloge
• Pour calculer, le CPU échange des données et des
instructions avec la mémoire principale (RAM)
selon une vitesse cadencée par sa fréquence
d’horloge.
• Jeu d’instructions : ensemble des opérations, plus
ou moins complexes, qu’un processeur peut
exécuter. Types d’instruction:
- Accès mémoire/transfert
- Opérations arithmétiques (+, -, x, …)
- Opérations logiques (AND, OR, …)
- Contrôle (if, …)
35 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Comment évaluer la performance d’un processeur ?

• La performance s’exprime en opérations (additions ou multiplications) à
virgule flottante par seconde = FLoating point Operations Per Second
• Puissance crête (point de vue théorique): mesure les performance des unités de
calcul en virgule flottante (FPU) contenues dans le cœur.
cycles FLOPs
FLOPS = cores x x
second cycle
• Exemple sur un processeur Intel CascadeLake - Dahu108-135
• fréquence d’un coeur : 2.3 GHz
• nombre de coeurs : 16
• registres vectoriels : 32 en simple précision (c’est à dire quand les flottants sont
stockés sur 32 bits), 16 en double précision (c’est à dire quand les flottants sont
stockés sur 64 bits) -> 16 FLOPs/cycle
La performance crête d’un processeur de ce type sera donc :
16 x 2.3 x 16 = 588.8 GFLOPS
36 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Comment évaluer la performance d’un processeur ?

• D’un point de vue pratique, la puissance d’une machine dépend de

l’ ensemble de ses composants : fréquence du processeur, accès mémoire, vitesse
des bus, complexité de l’architecture …mais aussi charge de la machine, système
d’exploitation…
• On est souvent loin de la puissance théorique …

37 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Pour résumer

Un cœur de calcul comprend:

• des unités de calcul : calculs arithmétiques élémentaires sur des nombres entiers,
opérations logiques, calculs flottants,
• de la mémoire : registres et cache L1,
• du contrôle pour séquencer le déroulement des calculs.

38 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Pour résumer
Si on veut aller plus loin
le cœur inclus beaucoup de mécanismes d’optimisation complexes :
• Pipelining, processeur superscalaire : pour pouvoir traiter plusieurs choses en
même temps.
• Exécution spéculative, prédiction de branchement : pour prendre de l’avance sur les
instructions du programme.
• Hyperthreading : deux processeurs logiques sur une seule puce, permettant
d’utiliser au mieux les ressources du processeur.
• Instructions vectorielles : le processeur, en fonction de son jeu d’instructions, est
capable d’appliquer la même instruction simultanément à plusieurs données (SSE,
AVX).

39 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Un exemple de parallélisme hardware

Parallélisme d’instruction
Instructions vectorielles : un premier type de parallélisme hardware

Exemple instruction SSE

Travail du processeur :
for i=1,n
load x[i] to the floating−point register
calculate the square root
Algorithme : write the result from the register to memory
for i=1,n
x[i] = sqrt (x[i]) Avec SSE :
for {i1,i2,i3,i4} in {1:n}
load x[i1],x[i2],x[i3],x[i4] to the SSE register
calculate 4 square roots in one operation
write the result from the register to memory
Conclusion : hardware mais à garder en tête pour optimisations
40 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Problématique des accès mémoires

• Principe de fonctionnement : le CPU a besoin d’un débit soutenu en lecture

d’instructions et de données.
• Problème : la localisation de la donnée va avoir un impact critique sur la performance :
registre, cache, RAM, disque, mémoire du processeur voisin, mémoire d’un autre noeud
• Sans aller hors du noeud, la RAM qui stocke ces instructions et données est beaucoup
trop lente pour assurer le débit dont est capable le processeur.
• Solutions : Hiérarchie mémoire
• au niveau matériel : utilisation de mémoires intermédiaires entre la RAM et le CPU.
−→ permet de stocker les données utiles au plus proche du CPU.
• au niveau développement : optimiser les accès
41 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Architecture matérielle: les mémoires et leur hiérarchie

Il existe différents types de mémoires qui se distinguent par leur capacité, leur rapidité,
leur prix, leur technologie, la manière d’y accéder, …
• Les registres: Extrêmement rapides, ils fonctionnent à la vitesse des CPU mais
leur capacité est minimale (qq Ko)
• La mémoire cache (L1, L2, L3) : très rapides et mettent à disposition du CPU les
copies de quelques données et instructions prise dans la mémoire centrale (qq Ko
∼ qq 100aines Mo). Le cache L1 est le plus rapide mais de taille plus restreinte.
• La RAM/mémoire centrale: vitesse de réaction très lente. Les données y sont
lues par bloc et mis à portée de main du CPU grâce à la mémoire cache (Qq Go∼
1 à 2 To)
• Mémoire de masse : les disques, les bandes magnétiques (Qq To)

42 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Architecture matérielle: les mémoires et leur hiérarchie

43 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Les mémoires - Localité mémoire

Lorsque le processeur tente d’accéder à une information (instruction ou
donnée)
• si l’information se trouve dans le cache (hit) : le processeur y accède sans état
d’attente,
• si l’information ne s’y trouve pas (miss) : le cache est chargé avec un bloc
d’informations de la mémoire, le processeur doit attendre
Les mémoires sont en général conçues pour exploiter les
principes de localité mémoire .
• Localité spatiale : lorsqu’un programme accède à une donnée ou à une
instruction, il est probable qu’il accédera ensuite aux données ou instructions
voisines.
• Localité temporelle : lorsqu’un programme accède à une donnée ou à une
instruction, il est probable qu’il y accédera à nouveau dans un futur proche
44 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Les mémoires - Localité mémoire et bonnes pratiques

subroutine sumVec (vec ,n)
→ Bonne localité spatiale des données du
integer:: n
integer:: vec(n)
tableau vec : accès en séquence
→ Bonne localité temporelle de la donnée sum
integer:: i,sum=0
do i=1,n

:
sum=sum+vec(i)
end do

accès fréquent
end subroutine

Accès optimal en fortran

do j = 1, n → Bonne localité spatiale:
do i = 1, n
y(i) = a(i,j) * x(j) stockage des colonnes les unes derrière les
end do
end do autres
Accès optimal en C
for (i=0; i<n; ++i){
→ Bonne localité spatiale:
for (j=0; j<n; ++j){
y[i] += a[i][j] * x[j];
stockage des lignes les unes derrière les
}} autres 45 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Quelques outils pour obtenir des infos sur les système …

• Informations concernant les “CPUs”

>cat /proc/cpuinfo

processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 79
model name : Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
...
• Taille de la RAM
>free -m
total used free shared buff/cache available
Mem: 128850 1945 11592 4 10980 125861 46 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Du processeur au nœud

• Nouvelles problématiques :
• Complexification de l’accès à la mémoire
• Présence d’accélérateur (GPU), et question des flux de données entre CPU et GPU

47 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Les mémoires - Temps d’accès à la mémoire partagée

Deux classes d’architectures parallèles à mémoire partagée différenciées par leur temps
d’accès à la mémoire.
UMA (Uniform Memory Access) NUMA (Non Uniform Memory
Même temps d’accès à une zone mémoire, quel que soit Access)
le processeur ayant fait la requête. Temps d’accès à la mémoire dépend
Exemple : systèmes SMP (Symmetric MultiProcessing). du processeur.
Augmentation nombre de cœurs ⇒ accès concurrents, Plusieurs blocs SMP inter-connectés
encombrement …Perte d’efficacité.

48 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Quelques outils pour obtenir des infos sur les système …

• hwloc, lstopo : en ligne de commande pour obtenir des informations sur la
topologie du système, les caches etc. Résultat : le type de schéma de la page
précédente.
• lspci : informations sur les périphériques du ou des bus PCI. Exemple : vérifier la
présence d’un GPU
> lspci |grep NVIDIA
02:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev a1)

• Monitoring d’un nœud : htop

49 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Du nœud au cluster de calcul

Cluster de calcul : ensemble de plusieurs nœuds reliés par un réseau d’interconnexion.

50 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Du nœud au cluster de calcul - Réseau d’interconnexion

Explosion du nombre de nœuds/cœurs, du volume : mouvement de données deviennent

critiques
−→ besoin d’un réseau d’interconnexion rapide pour les flux de données entre les
noeuds (communications)

Petit rappel des définitions

• Bande passante : débit d’informations ; quantité d’informations échangée par
unité de temps.
• Latence : Temps de réponse à une requête de transfert, temps minimum
d’établissement de la connexion ; indépendant de la quantité de données à
transporter.
• On peut imaginer la latence comme le temps passé sous la douche à attendre que
l’eau chaude arrive et la bande passante comme la puissance du jet d’eau chaude.

51 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Caractéristiques des réseaux d’interconnexion

• 3 grandes familles de technologie d’interconnexion :

• Infiniband : technologie la plus présente en HPC
avec une faible latence, une vitesse de transfert et
un débit important
• Gigabit Ethernet : plus fiable qu’infiniband mais
moins performant
• Omnipath : performances similaires à l’infiniband
mais la structure interne diffère
Evolution des technologies
réseau pour les machines du
top 500 52 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Gestion des Entrées / Sorties (ou Input/Output)

HPC −→ Explosion du volume/mouvement de données −→ Lectures/Écritures sur

disque deviennent critiques

I/O = Échange d’informations entre le processeur et les périphériques qui lui

sont associés.

La gestion des IO est rendue possible par l’utilisation d’un système de fichiers

53 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Gestion des Entrées / Sorties (ou Input/Output)

Système de fichiers
Rôles:
• Organiser le stockage des données sur un support physique
• Gérer l’espace de nommage et les attributs
Types d’information traitées:
• Données: contenu des fichiers
• Méta-données: ensemble d’informations sur le fichier : nom, position du fichier sur
le support physique, taille, attributs (propriétaire, groupe, …)
• Journal: enregistrement des opérations avant leur exécution pour assurer la
cohérence en cas de crash (coupure d’alimentation par exemple).

54 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Différents types de systèmes de fichiers pour le HPC1

• Systèmes de fichiers séquentiels: Ext4, XFS, BtrFS,…
Utilisés en local sur les serveurs et les nœuds, parfois au dessus d’un système plus bas
niveau (système RAID) permettant d’exploiter plusieurs disques pour des raisons de
fiabilité et de performance.
• Systèmes de fichiers partagés: NFS,NFSv4+RDMA, SSHFS,…
En général une couche réseau au dessus d’un système de fichiers, permettant de s’y
connecter par le réseau.
• Systèmes de fichiers distribués: BeeGFS, Lustre, Ceph,…
Partagés par définition, ils parallélisent les performances de plusieurs supports physiques
et serveurs en strippant les fichiers (blocs distribués sur plusieurs serveurs)
• Systèmes de fichiers objet: Irods, Swift, rados,…
Les objets peuvent être des fichiers, des blocks. Ils sont stockés sur des serveurs
différents et les méta-données sont stockées à la manière d’une base de donnée.
L’interface n’est pas POSIX (on doit généralement faire des put et des get).
1
High Parallel Computing 55 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Un cas concret : la machine Dahu

Une seule machine, plusieurs espaces de stockage avec des caractéristiques

différentes:
• /home : dossiers personnels de taille limitée, monté via NFS
• /bettik : scratch distribué haute performance sur technologie BeeGFS
• Plateforme Mantis : stockage de type cloud basé sur la technologie IRODS

56 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Un conseil essentiel A éviter à tout prix

Sources de pertes de performances

BEAUCOUP de PETITS fichiers! −→ Saturation du/des serveur(s) de métadonnées

• Un système de fichiers qui gère beaucoup de petits fichiers va passer plus de temps
à gérer les meta-données et le journal que les données proprement dites!
• Le nombre et la taille dépendent de la configuration, mais on peut généralement
considérer que 10000 fichiers de quelques k-octets peuvent déja poser des
problèmes.

Les accès aléatoires ou concurrents sur des petits blocks peuvent poser problème!
• Gestion des “locks” (Conflits d’accès sur la même portion de fichier).
• Préférer les écritures et lectures séquentielles.
57 / 488
Avant de paralléliser : connaitre et comprendre les ressources

Résumé
• Cœur : ressource qui fournit la puissance de
calcul.
• Processeur/CPU : composé d’un ou de
plusieurs cœurs.
• Mémoire : organisée de façon hiérarchique.
• Nœud : ressource contenant plusieurs
processeurs qui partagent une même
mémoire (NUMA).
• Réseau rapide infiniband, Omnipath,…:
technologie qui relie les nœuds stockés dans
des racks.
• Filesystem : entrées / sorties sur disques.
58 / 488
Quelles architectures aujourd’hui ?

59 / 488
Quelles architectures aujourd’hui ?

Taxonomie des architectures

A ce stade vous aurez compris que ce qui fera la différence entre les types d’architecture
sera:
• La manière de distribuer et d’accèder aux données .
• Le nombre et la puissance des unités de calcul, des coeurs.
• La qualité des différentes voies de communication .
Une première aide pour paralléliser : classer les architectures en fonction de ces
critères.
• Le traitement du flot d’instructions : le processeur peut-il exécuter plusieurs
instructions simultanées ? Autorise un parallélisme d’instructions.
• Le traitement du flot de données. Un parallélisme de données est-il possible ?
• Le type de mémoire : partagée, distribuée ou hybride.
• Le type de réseau disponible : comment faire transiter les données, les messages ?
60 / 488
Quelles architectures aujourd’hui ?

Taxonomie des architectures

Un point clé : la distribution des données.

1 Mémoire partagée : un pool mémoire commun à tous les processeurs

2 Mémoire distribuée : des zones mémoire exclusives , accessibles uniquement à

certains processeurs.
Types d’architectures très différents ⇒ modèles de programmation parallèle différents.

61 / 488
Quelles architectures aujourd’hui ?

Système à mémoire partagée

Un espace mémoire global, accessible simultanément par plusieurs CPUs et donc par
plusieurs programmes.
• Tous les CPUs accèdent à toute la mémoire
globale, avec un même espace d’adressage.
Chaque CPU est autonome mais les
modifications effectuées dans la mémoire
partagée sont visibles par tous.
• Les processeurs ont leur propre mémoire locale
(cache, …) dans laquelle sera copiée une partie
de la mémoire globale.

62 / 488
Quelles architectures aujourd’hui ?

Système à mémoire partagée

Quelques remarques pour anticiper les points forts et faibles des modèles de
programmation basés sur ce type de système.
• Accès rapides à la mémoire et partage des données
• Accès concurrents , risque d’embouteillage
• Cohérence des caches ? (Voir ci-après) répercution des écritures faites par un
processeur dans son cache vers les autres processeurs.
• Limites de ces systèmes = taille de la mémoire et nombre de CPUs disponibles.
Parallélisme sur un seul noeud !

63 / 488
Quelles architectures aujourd’hui ?

Cohérence de cache
Comment est gérée la cohérence de données modifiées par plusieurs processeurs ?