0% ont trouvé ce document utile (0 vote)

45 vues84 pages

Algo Parallele Module1

Le document traite des principes de la parallélisation des applications, en abordant les architectures parallèles, les modèles de programmation, et les méthodes de communication. Il explique comment découper une application pour la rendre parallèle, répartir le travail équitablement et évaluer les performances à l'aide de métriques comme la loi d'Amdahl et les courbes de speedup. Enfin, il aborde des techniques d'équilibrage de charge et présente des exercices pratiques pour illustrer ces concepts.

Transféré par

drissasidiki7219

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

45 vues84 pages

Algo Parallele Module1

Transféré par

drissasidiki7219

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Objectifs

• Savoir répondre aux questions suivantes:

– Quel gain potentiel à paralléliser une application ?
– Quel est le coût d’une communication réseau ?
– Comment découper une application pour la rendre
parallèle ?
– Comment répartir le travail de manière équitable ?
Architectures parallèles

• Au sein d’un processeur:

– Cœurs de calcul,
–hyper-threading,
–superscalaire,
–vectorisation
Architectures parallèles

• Au sein d’un processeur(suite):

• Cœurs de calcul, hyper-threading,
superscalaire, vectorisation
Architectures parallèles

• Au sein d’une machine:

• SMP (Symmetric Multi Processor), NUMA
(Non-Uniform Memory Architecture)
Architectures parallèles

• Entre machines:
• Grappes de calcul
Modèles à mémoire partagée

• Chaque tâche a accès à toutes les

données
Répartition des traitements
Limiter les synchronisations entre
tâches
--→ OpenMP, Pthread, Intel TBB
Modèles à mémoire distribuée
• Chaque tâche a accès à ses propres
données
• Répartition des données et communications
entre processeurs
• Une tâche effectue le traitement lié aux
donnée locales
• Règle « owner computes »
• Limiter les communications entre tâches
---→MPI
Modèles de programmation
hybrides
• Modèle distribué pour répartir sur plusieurs
nœuds
• Modèle à mémoire partagée au sein d’un
nœud
• Permet de tirer partie de la topologie de la
grappe
• Un processus MPI par nœud NUMA + threads
OpenMP
• Un processus MPI par machine + CUDA
Taxonomie de Flynn
• Classification des architectures
Théorie du parallélisme

•Parallélisation
–Utiliser plusieurs processeurs
pour traiter un problème plus
rapidement
–Généralement, seule une partie
du problème peut se paralléliser
Loi d’Amdahl

• Loi d’Amdahl
• Accélération maximale théoriquement
atteignable
• s = fraction du programme parallélisée
• 1 -s = fraction du programme séquentielle
• r = 1 / (1 -s) + (s/p)
r = 1 / (1 -s) + (s/p)
Mesures de performances

• Métriques de performance parallèle

– Evolution du temps d’exécution en fonction du
nombre de processeurs p
– Accélération (en anglais, speedup):
– Sp = Ts/Tp
• Ts: temps d’exécution du meilleur algorithme
séquentiel
• Tp: temps d’exécution de l’algorithme parallèle sur p
processeurs
Courbes de speedup
Courbes de speedup

• Plusieurs classes de speedup

• • Idéal : Tp = Ts/p
• • Linéaire: Sp= α.Si (α<1) (alpha)
• Asymptotique: Sp < β
• Superlinéaire: Sp > Si
• Dû à l’architecture (effets de cache)
• Dû à l’algorithme (algo de recherche)
Efficacité

• Efficacité: E= S/p
• Mesure le taux d’occupation
« utile » des processeurs
Quel est le coût d’une
communication réseau ?
Topologies réseau

• Comment connecter N machines à l’aide de

switch 4-ports ?
• Arbre de switches
Topologies réseau

• Comment connecter N machines à l’aide

de switch 4-ports ?
• Arbre de switches
•
Fat Tree

• Comment connecter N machines à l’aide

de switch 4-ports ?
• Fat Tree
Autres topologies

Beaucoup d’autres topologies.

Buts:
–Minimiser le nombre de sauts
(~latence)
–Maximiser la bande passante
Modèle de communication

• Propriétés
– Coût de communication (quasiment)
identique entre une paire quelconque de
nœuds
– Modèle de communication 1 –port
– Liens de communication bidirectionnels
(full-duplex)
• Coût d’échange d’un mot (word) de taille
m: ts + m Tw
• ts: temps de démarrage (startup)
• tw: temps de transfert par mot
Communications point à point

• Communications bloquantes
• Le thread émetteur se bloque jusqu’à ce
que le buffer soit utilisable:
– Après recopie dans un buffer,
– Ou après la fin de l’envoi
Communications bloquantes
• Communications non bloquantes
• Le thread émetteur ne se bloque pas
lors de l’envoi
• Réutilisation du buffer après vérification
de la terminaison
Communications non bloquantes
Communications collective
• Ensemble d’opérations de communication
impliquant un groupe de nœuds
• Exemple: diffusion 1-to-n (Broadcast)
• Un processus diffuse un message de taille
m à tous les autres
• Algorithme naïf:
– Le processus émetteur envoie à chacun des
autres processus
– n-1 étapes
Communications collective
• Ensemble d’opérations de communication
impliquant un groupe de nœuds
Exemple: diffusion 1-to-n (Broadcast)
• Un processus diffuse un message de taille
m à tous les autres
• Autre algorithme :
– log n étapes
– Algo optimal dépend de la topologie
– Temps d’exécution: log n . (ts + tw.m)
All-to-all: exercice

• Diffusion all-to-all
–Tous les processus envoient un
message de taille m à tous les autres
• Exercice:
–Écrire l’algorithme
–Calculer le temps d’exécution
All-to-all: solution
• void all_to_all( int my_rank, message m, int m_size) {
for(int i=0; i<log(n); i++) {
int offset = 1<<i;
int direction = my_rank & offset;
int dest;
if(direction == 0) {
dest = my_rank + offset;
} else {
dest = my_rank - offset;
}
send(m, m_size, dest);
recv(&m[ m_size], m_size, dest);
m_size *=2;
}
}
Communications collective

• Diffusion (Broadcast)
• Distribution (Scatter)
• Collecte (Gather)
• Reduction (Reduce)
Communications collective

•
Communications collective:
diffusion all-to-all
Communications collective collecte all-to-all
• Collecte n to 1 (Gather)

• Collecte n to n (AllGather)
Communications collective: Réduction all-to-all

• Reduction n to 1 (Reduce)
•
•Comment découper une
application pour la rendre
parallèle ?
Parallélisme de données

• Parallélisation basée sur la distribution des

données
• Distribution des données
• Owner computes
• Pour un même tableau, plusieurs
distributions possible
• Maximiser le rapport entre travail local et
communication
Distribution de tableaux denses

• Distribution d’un tableau 1D

• Par bloc, cyclique (élément par élément), bloc-
cyclique
Distribution de tableaux denses:
Distribution d’un tableau 2D
Exercice

• Multiplication de matrices NxN

• Comment distribuer les matrices sur 4 processus ?
• Écrire le code exécuté par les processus
• Calculer l’occupation mémoire pour chaque processus
Exercice

• Multiplication de matrices NxN

• Comment distribuer les matrices sur 4
processus ?
• Écrire le code exécuté par les processus
• void matmul(float**A, float**B, float**C, int n)
{
int i, j, k;
for(i=0; i<n/2; i++) {
for(j=0; j<n/2; j++) {
C[i][j] = 0;
for(k=0; k<n; k++) {
C[i][j] += A[i][k] * B[k][j];
} }}}
Multiplication de matrice compléxité

• Multiplication de matrices NxN

• Occupation mémoire pour chaque processus:

Problème de scalabilité en mémoire

• Communications: 0
Multiplication de matrice
algorithmes alternatifs
• Pas de duplication des données
• Occupation mémoire pour chaque processus:

• phases de communication
• Algorithmes de Cannon, Fox, Snyder
Multiplication de matrice
algorithmes alternatifs
• phases de communication

• Algorithmes de Cannon, Fox, Snyder

Parallélisme de tâches

• Parallélisation basée sur la décomposition

du calcul
• Décomposition en tâche
• Ordonnancement des tâches de calcul
Exemple: Choleski factorization
Data parallelism vs task parallelism

• Choleski parallélisé avec un #pragma omp

parallel for
Choleski parallélisé avec des tâches
• Comment répartir le travail
de manière équitable ?
Équilibrage de charge

• But de la parallélisation:
Réduire le temps d’exécution
~ équilibrer le temps d’exécution
entre threads
• Load balancing
Load balancing
Équilibrage de charge

• 3 niveaux de difficulté:
Facile: cas régulier – n jobs de même coût

• Difficile: cas irrégulier – n jobs de coût différent,

mais connu
Équilibrage de charge

• Difficile: cas irrégulier – n jobs de coût différent,

mais connu

• Très difficile: le coût des jobs est inconnu à

l’avance
Répartition statique

• Répartition statique du travail entre les

threads
• Répartir les données de manière équitable
• Pas de communication pendant l’exécution
• En OpenMP: schedule(static)
Répartition statique(suie..)

• Efficace pour les cas homogènes

Difficile dans certains cas
• Ressources de calcul hétérogènes
• Travail irrégulier
Répartition dynamique
• exemple:
• recherche dans un arbre
• Recherche d’une valeur
• dans un arbre/graphe
exemple: recherche dans un
arbre
• Répartition statique
• Créer une tâche et l’affecter à un CPU inutilisé
•
exemple: recherche dans un
arbre
1 task queue
maître esclave
• Une liste de tâches à exécuter
• Gérée par un thread manager (maître-esclave)
• Ou une structure de donnée protégée par un
lock
– ex: schedule(dynamic) d’OpenMP
1 task queue
maître esclave
• Problèmes
• Granularité des tâches
– Ne pas créer de tâches trop petites
• Pas de localité
• Contention sur le manager/lock
1 task queue
maître esclave
Task queue multiples
vol de tâches
• Une liste de tâches par thread
• Conserve la localité des données
• Pas de contention
Task queue multiples
vol de tâches
• Une liste de tâches par thread
• Conserve la localité des données
• Pas de contention
• Quand liste locale vide: vol de tâche
– Qui voler ?
– Voler une « grosse » tâche
• Deque (Double-ended queue)
Task queue multiples
vol de tâches
7 dwarves of HPC

• A dwarf is an algorithmic method that

captures a pattern of computation and
communication.
•
7 dwarves of HPC:
Complete list: [Link]

• Dense Linear Algebra

• Sparse Linear Algebra
• Spectral Methods
• N-Body Methods
• Structured Grids
• Unstructured Grids
• MapReduce
Exercice: Mandelbrot

• L’application mandelbrot_seq.c
calcule les éléments de l’ensemble de Mandelbrot
• Pour chaque “pixel”, un calcul est effectué
• La quantité de calcul nécessaire à chaque pixel
donne une couleur
– Blanc beaucoup de calcul
– Noir très peu de calcul
Exercice: Mandelbrot(suite..)

• Modifiez l’application pour assurer

l’équilibrage de charge
• De manière dynamique
• De manière statique

Vous aimerez peut-être aussi

05-Résolution de Problèmes
Pas encore d'évaluation
05-Résolution de Problèmes
24 pages
Cours Mpi
Pas encore d'évaluation
Cours Mpi
47 pages
Notes Algo Distribue
Pas encore d'évaluation
Notes Algo Distribue
63 pages
Cours - Algorithmes Distribues
Pas encore d'évaluation
Cours - Algorithmes Distribues
16 pages
Poly
Pas encore d'évaluation
Poly
147 pages
Corriger Dexamen AP SD
Pas encore d'évaluation
Corriger Dexamen AP SD
3 pages
Chap Openmp Nouvelle Version
Pas encore d'évaluation
Chap Openmp Nouvelle Version
35 pages
CH 3
Pas encore d'évaluation
CH 3
11 pages
Intro Parallelisme
Pas encore d'évaluation
Intro Parallelisme
59 pages
Programmation Parallèle et Parallélisation
Pas encore d'évaluation
Programmation Parallèle et Parallélisation
17 pages
Cours Parallélisme Et Clustering (Part1)
Pas encore d'évaluation
Cours Parallélisme Et Clustering (Part1)
26 pages
TDs
Pas encore d'évaluation
TDs
14 pages
Chapitre 3 Cout de Communication
Pas encore d'évaluation
Chapitre 3 Cout de Communication
5 pages
Systèmes Parallèles-3
Pas encore d'évaluation
Systèmes Parallèles-3
60 pages
I3 Algorithmique Parallele 1
Pas encore d'évaluation
I3 Algorithmique Parallele 1
12 pages
Optimisation OpenMP pour Calculs Parallèles
Pas encore d'évaluation
Optimisation OpenMP pour Calculs Parallèles
12 pages
Introduction à la Parallélisation d'Algorithmes
Pas encore d'évaluation
Introduction à la Parallélisation d'Algorithmes
40 pages
Introduction à OpenMP et parallélisation
100% (1)
Introduction à OpenMP et parallélisation
13 pages
TD ExoPar2025
Pas encore d'évaluation
TD ExoPar2025
42 pages
Introduction au calcul parallèle
Pas encore d'évaluation
Introduction au calcul parallèle
66 pages
Examen de Calcul Parallèle M2-RSD
100% (1)
Examen de Calcul Parallèle M2-RSD
2 pages
Exam AAP 2009
Pas encore d'évaluation
Exam AAP 2009
2 pages
Copie de Cours-Parallele JD V 2023-06
Pas encore d'évaluation
Copie de Cours-Parallele JD V 2023-06
161 pages
Examen AP SD
Pas encore d'évaluation
Examen AP SD
1 page
Concours Doctorat LMD USTHB 2014/2015
Pas encore d'évaluation
Concours Doctorat LMD USTHB 2014/2015
2 pages
Programmation Parallèle: OpenMP et MPI
Pas encore d'évaluation
Programmation Parallèle: OpenMP et MPI
82 pages
Cours Sys 2PPT20
Pas encore d'évaluation
Cours Sys 2PPT20
155 pages
Programmation Parallèle-IRIIA
Pas encore d'évaluation
Programmation Parallèle-IRIIA
74 pages
Processus Concurrents et Parallélisme IFT 630
Pas encore d'évaluation
Processus Concurrents et Parallélisme IFT 630
704 pages
Parallélisation d'algorithmes avec OpenMP et Boost
Pas encore d'évaluation
Parallélisation d'algorithmes avec OpenMP et Boost
31 pages
Cours AD 14-11-2023
Pas encore d'évaluation
Cours AD 14-11-2023
209 pages
Mpi1 Cours
100% (1)
Mpi1 Cours
265 pages
TP1 Horloges de Lamport Dans Les Systèmes Répartis
Pas encore d'évaluation
TP1 Horloges de Lamport Dans Les Systèmes Répartis
3 pages
Exercices ASR-Correction
Pas encore d'évaluation
Exercices ASR-Correction
15 pages
Programmation Parallèle OpenMP : TP1
Pas encore d'évaluation
Programmation Parallèle OpenMP : TP1
4 pages
Cours Ac
Pas encore d'évaluation
Cours Ac
188 pages
Informatique Concours Qualifiant
Pas encore d'évaluation
Informatique Concours Qualifiant
6 pages
Systèmes Parallèles et Temps Réel : Réponses et Concepts
Pas encore d'évaluation
Systèmes Parallèles et Temps Réel : Réponses et Concepts
30 pages
Algorithmes Distribués : Concepts et Applications
0% (1)
Algorithmes Distribués : Concepts et Applications
99 pages
AR
Pas encore d'évaluation
AR
5 pages
Exapro
Pas encore d'évaluation
Exapro
7 pages
Introduction Aux Systemes Distribues
Pas encore d'évaluation
Introduction Aux Systemes Distribues
32 pages
Systèmes Distribués : Modèle Client/Serveur
Pas encore d'évaluation
Systèmes Distribués : Modèle Client/Serveur
23 pages
Cours1 Info0802
Pas encore d'évaluation
Cours1 Info0802
58 pages
Examen APSD
Pas encore d'évaluation
Examen APSD
2 pages
Calcul Parallèle pour Étudiants en Master
Pas encore d'évaluation
Calcul Parallèle pour Étudiants en Master
37 pages
Par 2
Pas encore d'évaluation
Par 2
50 pages
Cours Parallelisme
Pas encore d'évaluation
Cours Parallelisme
100 pages
Impr Chapitre1
Pas encore d'évaluation
Impr Chapitre1
4 pages
Architectures et Programmation Parallèle
Pas encore d'évaluation
Architectures et Programmation Parallèle
67 pages
OpenMP Cours
Pas encore d'évaluation
OpenMP Cours
88 pages
Introduction aux Réseaux et Protocoles
100% (1)
Introduction aux Réseaux et Protocoles
884 pages
Fascicule PPCE 2122
Pas encore d'évaluation
Fascicule PPCE 2122
29 pages
Banque X-ÉNS 2015 MP-Option Informatique Informatique A e
Pas encore d'évaluation
Banque X-ÉNS 2015 MP-Option Informatique Informatique A e
15 pages
Algo
Pas encore d'évaluation
Algo
142 pages
Chapitre1 11 12
Pas encore d'évaluation
Chapitre1 11 12
25 pages
FlashInformatique 32007
Pas encore d'évaluation
FlashInformatique 32007
12 pages
1TXH000625B0301 Centrales de Mesure M4M
Pas encore d'évaluation
1TXH000625B0301 Centrales de Mesure M4M
28 pages
Guide des Meilleurs IDE pour Développeurs
Pas encore d'évaluation
Guide des Meilleurs IDE pour Développeurs
5 pages
CV Dr. Farid Lassoued: Expert en Télécommunications et Informatique
Pas encore d'évaluation
CV Dr. Farid Lassoued: Expert en Télécommunications et Informatique
5 pages
Fiche de Poste Responsable Informatique
Pas encore d'évaluation
Fiche de Poste Responsable Informatique
2 pages
Mode Emploi BarTender
Pas encore d'évaluation
Mode Emploi BarTender
23 pages
Chapitre 4 - Zookeeper - Ce
Pas encore d'évaluation
Chapitre 4 - Zookeeper - Ce
41 pages
Introduction au JCL pour débutants
Pas encore d'évaluation
Introduction au JCL pour débutants
8 pages
Liste Des Prix Janvier 2025 - GLE (2) - Compressed
Pas encore d'évaluation
Liste Des Prix Janvier 2025 - GLE (2) - Compressed
61 pages
Progression - Pédagogique - de - Première - BAC - PRO - IRT Last Version
Pas encore d'évaluation
Progression - Pédagogique - de - Première - BAC - PRO - IRT Last Version
7 pages
Introduction à l'IoT et M2M
Pas encore d'évaluation
Introduction à l'IoT et M2M
61 pages
2322 Chap1
Pas encore d'évaluation
2322 Chap1
13 pages
FP TP Chute Libre
100% (1)
FP TP Chute Libre
2 pages
Le Fritzing
Pas encore d'évaluation
Le Fritzing
14 pages
TP5 Réseaux Locaux
Pas encore d'évaluation
TP5 Réseaux Locaux
16 pages
SNT Web 2021 04 30
Pas encore d'évaluation
SNT Web 2021 04 30
48 pages
M1-DATA Mining - Exam M1-DATA Mining - Exam
Pas encore d'évaluation
M1-DATA Mining - Exam M1-DATA Mining - Exam
3 pages
Jakarta EE
Pas encore d'évaluation
Jakarta EE
106 pages
Saisie de Schéma avec ISIS 6
Pas encore d'évaluation
Saisie de Schéma avec ISIS 6
26 pages
Projet D'infographie
Pas encore d'évaluation
Projet D'infographie
3 pages
Veille technologique et recherche d'infos
100% (2)
Veille technologique et recherche d'infos
40 pages
Formation Initiation à Access 2013-2016
Pas encore d'évaluation
Formation Initiation à Access 2013-2016
2 pages
Schéma du HP Pavilion 15 F
Pas encore d'évaluation
Schéma du HP Pavilion 15 F
37 pages
S500 Doc - 03 ACCES
Pas encore d'évaluation
S500 Doc - 03 ACCES
19 pages
Exam C
Pas encore d'évaluation
Exam C
1 page
Memoire Pfe
Pas encore d'évaluation
Memoire Pfe
77 pages
Algorithmique Techniques Fondamentales de Programmation Avec Des Exemples en PHP
100% (1)
Algorithmique Techniques Fondamentales de Programmation Avec Des Exemples en PHP
225 pages
Convergence Marketing Internationale
Pas encore d'évaluation
Convergence Marketing Internationale
175 pages
Chapitre 2 JEE Servlet PDF
Pas encore d'évaluation
Chapitre 2 JEE Servlet PDF
10 pages
La Digitalisation de La Relation Client
Pas encore d'évaluation
La Digitalisation de La Relation Client
14 pages
Cplan Sequence 2
Pas encore d'évaluation
Cplan Sequence 2
7 pages