0% found this document useful (0 votes)

126 views40 pages

Con Currency Mapping

This document discusses parallel processing and mapping techniques for load balancing. It describes characteristics of tasks such as generation strategy, size, and associated data. Mapping techniques include static mappings using data or graph partitioning, and dynamic mappings using centralized or distributed approaches. The goal of mappings is to minimize idling and communication overheads through balanced work distribution across processes.

Uploaded by

Mazen Alkoa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

126 views40 pages

Con Currency Mapping

Uploaded by

Mazen Alkoa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 40

Parallel Processing

Concurrency and Mapping

Samer Arandi
[email protected]

Parallel Processing 66523

Computer Engineering Department

An-Najah National University

Outline

Characteristics of tasks and interactions

task generation, granularity, and context characteristics of task interactions

Mapping techniques for load balancing

static mappings dynamic mappings

Methods for minimizing interaction overheads Parallel algorithm design templates

Characteristics of Tasks
Key characteristics
generation strategy associated work associated data size

Impact choice and performance of parallel algorithms

Task Generation
Static task generation
identify concurrent tasks a-priori typically data or recursive decomposition leads to static tasks generation examples
- matrix operations - graph algorithms - image processing applications
- other regularly structured problems

Dynamic task generation

identify concurrent tasks as a computation unfolds (tasks & depend. graph) the rules governing the generation of tasks are known as part of the alg. typically a result of exploratory or speculative decompositions examples
- puzzle solving (15-puzzle) - game playing

recursive can also lead to dynamic tasks generation (quicksort) exploratory can also lead to static tasks generation (15-puzzle)

Task Sizes
Task Size: amount of time required for completion Uniform: all the same size (example?) Non-uniform
sometimes sizes are known or can be estimated a-priori sometimes not
- example: tasks in quicksort

size of each partition depends upon pivot selected

Implications on mapping?

Size of Data Associated with Tasks

Data may be small or large compared to the computation
size(input) < size(computation), e.g., 15 puzzle size(input) = size(computation) > size(output), e.g., min size(input) = size(output) <= size(computation), e.g., sort

Implications
small data: task can easily migrate to another process large data: ties the task to a process
- possibly can avoid communicating the task context
reconstruct/recompute the context elsewhere

Characteristics of Task Interactions

Orthogonal classification criteria

Static vs. dynamic Regular vs. irregular Read-only vs. read-write One-sided vs. two-sided

Characteristics of Task Interactions

Static interactions
tasks and interactions are known a-priori simpler to code

Dynamic interactions
timing or interacting tasks cannot be determined a-priori harder to code
- especially using two-sided message passing APIs

Characteristics of Task Interactions

Regular interactions
interactions have a pattern that can be described with a function
- e.g. mesh, ring

regular patterns can be exploited for efficient implementation

- e.g. schedule communication to avoid conflicts on network links

Irregular interactions
lack a well-defined topology modeled by a graph

Static Regular Task Interaction Pattern

Image operations, e.g. edge detection Nearest neighbor interactions on a 2D mesh

Static Irregular Task Interaction Pattern

Sparse matrix-vector multiply

A task must scan its associated row(s) of A to know which entry -of vector b- it requires (implies the tasks it needs to interact with)
20

Characteristics of Task Interactions

Read-only interactions
tasks only read data associated with other tasks example: Matrix Multiplication (shared: A and B)

Read-write interactions
read and modify data associated with other tasks
example: shared tasks priority queues

harder to code: requires synchronization

- need to avoid ordering races (read-write and write-write, etc)

Characteristics of Task Interactions

One-sided
initiated & completed independently by 1 of 2 interacting tasks
- GET - PUT

Two-sided
both tasks coordinate in an interaction
- SEND + RECV

Outline

Characteristics of tasks and interactions

task generation, granularity, and context characteristics of task interactions

Mapping techniques for load balancing

static mappings dynamic mappings

Methods for minimizing interaction overheads Parallel algorithm design templates

Mapping Techniques
Map concurrent tasks to processes for execution Goal: all tasks complete in the shortest possible time

Overheads of mappings
serialization (idling) - due to uneven load balancing/dependencies communication

A good mapping tries to minimize both sources of overheads Conflicting objectives: minimizing one increases the other
assigning all work to one processor (going to the extreme)
- minimizes communication - significant idling

minimizing serialization introduces communication

Mapping Techniques for Minimum Idling

Overall load balancing alone doesnt necessarily minimize idling
Task dependency graph determines when a task can run Must balance computation and interactions at each stage

Time

Mapping Techniques for Minimum Idling

Static vs. dynamic mappings

Static mapping
a-priori mapping of tasks to processes requirements
- a good estimate of task size - even so, optimal mapping may be NP complete

e.g., multiple knapsack problem

Dynamic mapping
map tasks to processes at runtime why?
- tasks are generated at runtime, or

- their sizes are unknown

need to make sure cost of moving data doesnt outweigh the Factors that influence choice of mapping benefit of dynamic mapping size of data associated with a task nature of underlying domain
26

Schemes for Static Mapping

Data partitionings Task graph partitionings Hybrid strategies

Mappings Based on Data Partitioning

Partition computation using a combination of
data partitioning owner-computes rule

Example: 1-D block distribution for dense matrices

Block Array Distribution Schemes

Multi-dimensional block distributions

Multi-dimensional partitioning enables larger # of processes

Block Array Distribution Example

Multiplying two dense matrices C = A x B

Partition the output matrix C using a block decomposition Give each task the same number of elements of C
each element of C corresponds to a dot product even load balance

Obvious choices: 1D or 2D decomposition Select to minimize associated communication overhead

Imbalance and Block Array Distributions

Consider a block distribution for LU decomposition
Computing different blocks requires different amounts of work
If we map all tasks associated with a certain block onto a process in a 9-process ensemble=> imbalance => significant idle time

Another computation with similar distribution challenges

Gaussian Elimination
33

Block Cyclic Distribution

Variant of the block distribution scheme that can be used to alleviate the load-imbalance and idling

Steps
1. partition an array into many more blocks than the number of available processes 2. assign blocks to processes in a round-robin manner
- each process gets several non-adjacent blocks

Block-Cyclic Distribution

(a) 1D block-cyclic

(b) 2D block-cyclic

In certain cases even block-cyclic results in imbalance: - Randomized Block Distribution

Decomposition by Graph Partitioning

Data partitioning is very effective for problems that use dense matrices and have regular interaction patterns.

However, some problems utilize sparse matrices and have datadependent and irregular interaction patters Sparse-matrix vector multiply

Graph of the matrix is useful for decomposition

work ~ number of edges communication for a node ~ node degree

Goal: balance work & minimize communication Partition the graph

assign equal number of nodes to each process minimize edge count of the graph partition
36

Partitioning a Graph of Lake Superior

Random Partitioning ( 8 processes)

Partitioning for minimum edge-cut (8 processes)

Mappings Based on Task Partitioning

Partitioning a task-dependency graph

Optimal partitioning for general task-dependency graph

NP-complete problem

Excellent heuristics exist for structured graphs

Mapping a Binary Tree Dependency Graph

Dependency graph for quicksort Task assignment to processes in a hypercube*

*hypercube: node numbers that differ in 1 bit are adjacent

Task Partitioning: Mapping a Sparse Graph

17 item to communicate

13 item to communicate

Hierarchical Mappings
Sometimes a single mapping is inadequate
e.g., task mapping of a binary tree cannot readily use a large number of processors (e.g. parallel quicksort).

Hierarchical approach
use a task mapping at the top level data partitioning within each level

Schemes for Dynamic Mapping

Dynamic mapping AKA dynamic load balancing
load balancing is the primary motivation for dynamic mapping

Styles
centralized distributed

Centralized Dynamic Mapping

Processes = master(s) or slaves General strategy
when a slave runs out of work request more from master

Challenge
master may become bottleneck for large # of processes

Approach
chunk scheduling: process picks up several of tasks at once however
- large chunk sizes may cause significant load imbalances - gradually decrease chunk size as the computation progresses

Distributed Dynamic Mapping

All processes as peers Each process can send or receive work from other processes
avoids centralized bottleneck

Four critical design questions

how are sending and receiving processes paired together? who initiates work transfer? how much work is transferred? when is a transfer triggered?

Ideal answers can be application specific Cilk uses a distributed dynamic mapping: work stealing
Distributed v.s. Shared Memory Architectures Suitability
-For message-passing computers the computation size should be >> the data size
46

Outline

Characteristics of tasks and interactions

task generation, granularity, and context characteristics of task interactions

Mapping techniques for load balancing

static mappings dynamic mappings

Methods for minimizing interaction overheads Parallel algorithm design templates

Minimizing Interaction Overheads (1)

Rules of thumb

Maximize data locality

dont fetch data you already have restructure computation to reuse data promptly

Minimize volume of data exchange

partition interaction graph to minimize edge crossings

Minimize frequency of communication

try to aggregate messages where possible

Minimize contention and hot-spots

use decentralized techniques (avoidance)

Minimizing Interaction Overheads (2)

Techniques

Overlap communication with computation

use non-blocking communication primitives
- overlap communication with your own computation - one-sided: prefetch remote data to hide latency

multithread code on a processor

- overlap communication with another threads computation

Replicate data or computation to reduce communication Use group communication instead of point-to-point primitives Issue multiple communications and overlap their latency
(reduces exposed latency)

Outline

Characteristics of tasks and interactions

task generation, granularity, and context characteristics of task interactions

Mapping techniques for load balancing

static mappings dynamic mappings

Methods for minimizing interaction overheads Parallel algorithm design templates

Parallel Algorithm Model

Definition: ways of structuring a parallel algorithm Aspects of a model
decomposition mapping technique strategy to minimize interactions

Common Parallel Algorithm Models

Data parallel
each task performs similar operations on different data typically statically map tasks to processes

Task graph
use task dependency graph relationships to
- promote locality, or reduce interaction costs

Master-slave
one or more master processes generate work allocate it to worker processes allocation may be static or dynamic

Pipeline / producer-consumer
pass a stream of data through a sequence of processes each performs some operation on it

Hybrid
apply multiple models hierarchically, or apply multiple models in sequence to different phases

References
Slides originally from John Mellor-Crummey (Rice), COMP 422
Adapted from slides Principles of Parallel Algorithm Design by Ananth Grama Based on Chapter 3 of Introduction to Parallel Computing by Ananth Grama, Anshul Gupta, George Karypis, and Vipin Kumar. Addison Wesley, 2003

WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-02-07 Reference-Material-I
No ratings yet
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-02-07 Reference-Material-I
35 pages
X. Mapping Techniques: 27 April, 2009
No ratings yet
X. Mapping Techniques: 27 April, 2009
27 pages
Chapter 7 - Parallel Programming Issues
No ratings yet
Chapter 7 - Parallel Programming Issues
68 pages
WINSEM2022 23 CSE4001 ETH VL2022230503182 Reference Material I 02
No ratings yet
WINSEM2022 23 CSE4001 ETH VL2022230503182 Reference Material I 02
28 pages
Partitioning
No ratings yet
Partitioning
37 pages
Parallel Computing Essentials
No ratings yet
Parallel Computing Essentials
52 pages
Performance Programming Techniques
No ratings yet
Performance Programming Techniques
79 pages
Chap 4-7 - Parallel - Abstractions - and - MPI
No ratings yet
Chap 4-7 - Parallel - Abstractions - and - MPI
34 pages
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-31 Reference-Material-I
No ratings yet
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-31 Reference-Material-I
19 pages
Module 3 - Principles of Parallel Algorithm Design
No ratings yet
Module 3 - Principles of Parallel Algorithm Design
39 pages
Lecture 5 Principles of Parallel Algorithm Design
No ratings yet
Lecture 5 Principles of Parallel Algorithm Design
30 pages
Characteristics of Tasks and Task Interactions
No ratings yet
Characteristics of Tasks and Task Interactions
11 pages
Parallel Computing Load Balancing
100% (1)
Parallel Computing Load Balancing
5 pages
Principles of Parallel Algorithm Design
No ratings yet
Principles of Parallel Algorithm Design
35 pages
Parallel Algorithm Design Guide
No ratings yet
Parallel Algorithm Design Guide
107 pages
PDC 17 - Load Balancing, Static and Dynamic Load Balancing
No ratings yet
PDC 17 - Load Balancing, Static and Dynamic Load Balancing
15 pages
Decomposition Techniques in Parallel Computing
No ratings yet
Decomposition Techniques in Parallel Computing
43 pages
HPC Ut 2
No ratings yet
HPC Ut 2
4 pages
Parallel Computing Task Mapping
No ratings yet
Parallel Computing Task Mapping
9 pages
ConcurrencyDecomposition Parallel Algorithm
No ratings yet
ConcurrencyDecomposition Parallel Algorithm
40 pages
8-Parallel Algorithm Design - Preliminaries-09-Jan-2020Material - I - 09-Jan-2020 - Module - 3 - Preliminaries PDF
No ratings yet
8-Parallel Algorithm Design - Preliminaries-09-Jan-2020Material - I - 09-Jan-2020 - Module - 3 - Preliminaries PDF
18 pages
Parallel Algorithm Design Basics
No ratings yet
Parallel Algorithm Design Basics
63 pages
AA Part1
No ratings yet
AA Part1
43 pages
Lecture 4: Principles of Parallel Algorithm Design (Part 4)
No ratings yet
Lecture 4: Principles of Parallel Algorithm Design (Part 4)
27 pages
Parallel Algorithms and Task Decomposition
No ratings yet
Parallel Algorithms and Task Decomposition
89 pages
Unit 2 - Part - 1
No ratings yet
Unit 2 - Part - 1
32 pages
Parallel Algorithms & Concurrency
No ratings yet
Parallel Algorithms & Concurrency
84 pages
Unit 2 HPC - Nap
No ratings yet
Unit 2 HPC - Nap
72 pages
Parallel Algorithm Design Basics
No ratings yet
Parallel Algorithm Design Basics
78 pages
Parallel Programming: Lecture #9
No ratings yet
Parallel Programming: Lecture #9
24 pages
Parallel and Distributed Algorithms-IMPORTANT QUESTION
100% (1)
Parallel and Distributed Algorithms-IMPORTANT QUESTION
15 pages
Parallel Algorithms Presentation
No ratings yet
Parallel Algorithms Presentation
32 pages
Unit 2
No ratings yet
Unit 2
64 pages
Cs 621
No ratings yet
Cs 621
7 pages
Introduction To Parallel Computing Design and Anal
No ratings yet
Introduction To Parallel Computing Design and Anal
53 pages
Parallel Computing
No ratings yet
Parallel Computing
91 pages
E - Notes - HPC-Unit 3-1
No ratings yet
E - Notes - HPC-Unit 3-1
26 pages
PDC Unit-2
No ratings yet
PDC Unit-2
48 pages
Parallel Algorithm Design Principles and Programming
No ratings yet
Parallel Algorithm Design Principles and Programming
8 pages
HPC - Unit-2 Insem Notes
No ratings yet
HPC - Unit-2 Insem Notes
99 pages
Unit 2
No ratings yet
Unit 2
151 pages
Chap3 Slides Week4
No ratings yet
Chap3 Slides Week4
42 pages
Paraplop 2010 The Task Graph Pattern Workshop Submission
No ratings yet
Paraplop 2010 The Task Graph Pattern Workshop Submission
11 pages
Parallel Algorithm Design Guide
No ratings yet
Parallel Algorithm Design Guide
35 pages
Parallel Programming
No ratings yet
Parallel Programming
42 pages
HPC Unit 2
No ratings yet
HPC Unit 2
2 pages
Lecture4 PDF
No ratings yet
Lecture4 PDF
23 pages
Introduction to Parallel Programming
No ratings yet
Introduction to Parallel Programming
18 pages
High Performance Computing Design Stages
No ratings yet
High Performance Computing Design Stages
24 pages
High Performance Computing (HPC) - Lec2
No ratings yet
High Performance Computing (HPC) - Lec2
53 pages
Group3 - Parallel - Computing - Techniques - Presentation Power Point 2025
No ratings yet
Group3 - Parallel - Computing - Techniques - Presentation Power Point 2025
27 pages
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-12 Reference-Material-I
No ratings yet
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-12 Reference-Material-I
28 pages
Parallel Computing Techniques Guide
No ratings yet
Parallel Computing Techniques Guide
24 pages
In3200 Chap05
No ratings yet
In3200 Chap05
34 pages
Task Decomposition Techniques in Computing
No ratings yet
Task Decomposition Techniques in Computing
62 pages
Unit - 2 HPC
No ratings yet
Unit - 2 HPC
96 pages
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-19 Reference-Material-I
No ratings yet
WINSEM2022-23 CSE4001 ETH VL2022230503160 2023-01-19 Reference-Material-I
72 pages
Python For Data Science
No ratings yet
Python For Data Science
321 pages
Hibernate Inverse and Cascade
No ratings yet
Hibernate Inverse and Cascade
9 pages
EE 463 Operating Systems Spring 2018 Homework #3 Dr. A. M. Al-Qasimi Objectives
No ratings yet
EE 463 Operating Systems Spring 2018 Homework #3 Dr. A. M. Al-Qasimi Objectives
2 pages
Syllabus Computers
No ratings yet
Syllabus Computers
59 pages
Mtech Network Programming Lab Manual MSCSL207
No ratings yet
Mtech Network Programming Lab Manual MSCSL207
27 pages
CPU Scheduling Algorithms Guide
No ratings yet
CPU Scheduling Algorithms Guide
21 pages
VBA Course Outline
No ratings yet
VBA Course Outline
4 pages
Pig: Building High-Level Dataflows Over Map-Reduce: Utkarsh Srivastava
No ratings yet
Pig: Building High-Level Dataflows Over Map-Reduce: Utkarsh Srivastava
46 pages
Journal Import Integration - FBDI
No ratings yet
Journal Import Integration - FBDI
4 pages
Arduino FSM & Debounce Guide
0% (1)
Arduino FSM & Debounce Guide
3 pages
Excelmacroforsolvingapolynomialequation 141126122007 Conversion Gate01 PDF
No ratings yet
Excelmacroforsolvingapolynomialequation 141126122007 Conversion Gate01 PDF
4 pages
SAP HANA SQL Script Reference en
No ratings yet
SAP HANA SQL Script Reference en
256 pages
Redux: Comprehensive Guide & Tutorials
No ratings yet
Redux: Comprehensive Guide & Tutorials
248 pages
Extending S4Hana With Developer Extensibility PDF
No ratings yet
Extending S4Hana With Developer Extensibility PDF
43 pages
Quantum Web Technology Kcs 602
No ratings yet
Quantum Web Technology Kcs 602
338 pages
Python Character Set and Special Symbols
No ratings yet
Python Character Set and Special Symbols
24 pages
Kakatiya University UG Exam Schedule 2022
No ratings yet
Kakatiya University UG Exam Schedule 2022
11 pages
Book in Stal Guide
No ratings yet
Book in Stal Guide
52 pages
Assignment
No ratings yet
Assignment
10 pages
Linker Functions in Program Execution
No ratings yet
Linker Functions in Program Execution
11 pages
Data Access Methods in Visual Basic
No ratings yet
Data Access Methods in Visual Basic
16 pages
Pyspark
No ratings yet
Pyspark
44 pages
Workshop Initiation To SDL - Part1
No ratings yet
Workshop Initiation To SDL - Part1
5 pages
Course Introduction - OOAD
No ratings yet
Course Introduction - OOAD
7 pages
Mips Isa Eecc550
No ratings yet
Mips Isa Eecc550
28 pages
Weekly Progress Report on RSA Cryptosystem
No ratings yet
Weekly Progress Report on RSA Cryptosystem
1 page
Basler AW00148803000 Pylon SDK Samples Manual
No ratings yet
Basler AW00148803000 Pylon SDK Samples Manual
110 pages
DAA Unit3 Greedy Methods
No ratings yet
DAA Unit3 Greedy Methods
61 pages
Android Activity Lifecycle Guide
No ratings yet
Android Activity Lifecycle Guide
12 pages
AQA A Level Computer Science Queues
No ratings yet
AQA A Level Computer Science Queues
18 pages

Con Currency Mapping

Uploaded by

Con Currency Mapping

Uploaded by

Parallel Processing

Concurrency and Mapping

Parallel Processing 66523

Computer Engineering Department

An-Najah National University

Characteristics of tasks and interactions

Mapping techniques for load balancing

Methods for minimizing interaction overheads Parallel algorithm design templates

Impact choice and performance of parallel algorithms

Dynamic task generation

size of each partition depends upon pivot selected

Size of Data Associated with Tasks

Characteristics of Task Interactions

Characteristics of Task Interactions

Characteristics of Task Interactions

regular patterns can be exploited for efficient implementation

Static Regular Task Interaction Pattern

Static Irregular Task Interaction Pattern

Characteristics of Task Interactions

harder to code: requires synchronization

Characteristics of Task Interactions

Characteristics of tasks and interactions

Mapping techniques for load balancing

Methods for minimizing interaction overheads Parallel algorithm design templates

minimizing serialization introduces communication

Mapping Techniques for Minimum Idling

Mapping Techniques for Minimum Idling

e.g., multiple knapsack problem

- their sizes are unknown

Schemes for Static Mapping

Mappings Based on Data Partitioning

Example: 1-D block distribution for dense matrices

Block Array Distribution Schemes

Multi-dimensional partitioning enables larger # of processes

Block Array Distribution Example

Obvious choices: 1D or 2D decomposition Select to minimize associated communication overhead

Imbalance and Block Array Distributions

Another computation with similar distribution challenges

Block Cyclic Distribution

In certain cases even block-cyclic results in imbalance: - Randomized Block Distribution

Decomposition by Graph Partitioning

Graph of the matrix is useful for decomposition

Goal: balance work & minimize communication Partition the graph

Partitioning a Graph of Lake Superior

Random Partitioning ( 8 processes)

Partitioning for minimum edge-cut (8 processes)

Mappings Based on Task Partitioning

Optimal partitioning for general task-dependency graph

Excellent heuristics exist for structured graphs

Mapping a Binary Tree Dependency Graph

*hypercube: node numbers that differ in 1 bit are adjacent

Task Partitioning: Mapping a Sparse Graph

Schemes for Dynamic Mapping

Centralized Dynamic Mapping

Distributed Dynamic Mapping

Four critical design questions

Characteristics of tasks and interactions

Mapping techniques for load balancing

Methods for minimizing interaction overheads Parallel algorithm design templates

Minimizing Interaction Overheads (1)

Maximize data locality

Minimize volume of data exchange

Minimize frequency of communication

Minimize contention and hot-spots

Minimizing Interaction Overheads (2)

Overlap communication with computation

multithread code on a processor

Characteristics of tasks and interactions

Mapping techniques for load balancing

Methods for minimizing interaction overheads Parallel algorithm design templates

Parallel Algorithm Model

Common Parallel Algorithm Models

You might also like