0% found this document useful (0 votes)

8 views4 pages

Cuda4 2

The document contains a CUDA C program that performs matrix multiplication of two 2x2 matrices. It defines a kernel function 'matMul' to compute the product and utilizes CUDA memory management functions to allocate and copy data between host and device. The program prints the resulting matrix after computation and frees allocated memory before exiting.

Uploaded by

tryhackkme123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views4 pages

Cuda4 2

Uploaded by

tryhackkme123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

// matrix_mul.

#include <stdio.h>

global void matMul(float A, float B, float *C, int N) {

int row = blockIdx.y * blockDim.y + threadIdx.y;

int col = blockIdx.x * blockDim.x + threadIdx.x;

if (row < N && col < N) {

float sum = 0;

for (int k = 0; k < N; k++)

sum += A[row * N + k] * B[k * N + col];

C[row * N + col] = sum;

}

int main() {

int N = 2; // 2x2 matrix for simplicity

size_t size = N * N * sizeof(float);

float A[] = {1, 2, 3, 4};

float B[] = {5, 6, 7, 8};

float C[4];

float d_A, d_B, *d_C;

cudaMalloc(&d_A, size);
cudaMalloc(&d_B, size);

cudaMalloc(&d_C, size);

cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);

cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);

dim3 threads(16, 16);

dim3 blocks((N+15)/16, (N+15)/16);

matMul<<<blocks, threads>>>(d_A, d_B, d_C, N);

cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);

printf("Result Matrix C:\n");

for (int i = 0; i < N*N; i++) {

printf("%f ", C[i]);

if ((i+1) % N == 0) printf("\n");

cudaFree(d_A);

cudaFree(d_B);

cudaFree(d_C);

return 0;

Cuda 4.1
No ratings yet
Cuda 4.1
2 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
Source Code
No ratings yet
Source Code
7 pages
p4 Multiply
No ratings yet
p4 Multiply
2 pages
CUDA Matrix Multiplication Quiz
No ratings yet
CUDA Matrix Multiplication Quiz
12 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
CUDA
No ratings yet
CUDA
3 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
Allocate The Device Memory Where We Will Copy M
No ratings yet
Allocate The Device Memory Where We Will Copy M
2 pages
Rishi
No ratings yet
Rishi
30 pages
PDC Assignment
No ratings yet
PDC Assignment
9 pages
CUDA Matrix Multiplication Techniques
100% (1)
CUDA Matrix Multiplication Techniques
55 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
Assignment 04
No ratings yet
Assignment 04
16 pages
CUDA Matrix Multiplication Example
No ratings yet
CUDA Matrix Multiplication Example
3 pages
5 Computation
No ratings yet
5 Computation
13 pages
CUDA Matrix Multiplication Guide
No ratings yet
CUDA Matrix Multiplication Guide
38 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
CUDA Part-2
No ratings yet
CUDA Part-2
49 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
Cuda
No ratings yet
Cuda
4 pages
SYCL Bfloat16 Matrix Multiplication
No ratings yet
SYCL Bfloat16 Matrix Multiplication
4 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
217 Lec3
No ratings yet
217 Lec3
46 pages
Cuuda Nvidai Guide - Part3
No ratings yet
Cuuda Nvidai Guide - Part3
15 pages
HPC File
No ratings yet
HPC File
22 pages
OpenCL GPU Matrix Multiplication Code
No ratings yet
OpenCL GPU Matrix Multiplication Code
19 pages
CUDA Matrix-Vector Multiplication Code
No ratings yet
CUDA Matrix-Vector Multiplication Code
4 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
PC Cuda Assignment-2
No ratings yet
PC Cuda Assignment-2
29 pages
Web GPU
0% (1)
Web GPU
40 pages
Hetero Lecture Slides 002 Lecture 1 Lecture-1-8-Kernel-matrix-multiplication
No ratings yet
Hetero Lecture Slides 002 Lecture 1 Lecture-1-8-Kernel-matrix-multiplication
12 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
OpenAcc Assignment Questions
No ratings yet
OpenAcc Assignment Questions
11 pages
DeviceFunc Cu
100% (1)
DeviceFunc Cu
1 page
Multithreaded Matrix Multiplication
No ratings yet
Multithreaded Matrix Multiplication
1 page
HPC-Practical-4Addition of Two Large Vectors
No ratings yet
HPC-Practical-4Addition of Two Large Vectors
4 pages
CUDA Homework: Basic Exercises
No ratings yet
CUDA Homework: Basic Exercises
185 pages
Optimized CUDA Vector Addition Code
No ratings yet
Optimized CUDA Vector Addition Code
5 pages
Cuda4 1
No ratings yet
Cuda4 1
4 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
Multithreaded Architectures: Memory and Data Locality
No ratings yet
Multithreaded Architectures: Memory and Data Locality
39 pages
Notes For C++
No ratings yet
Notes For C++
7 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
Parallel Computing Lab4
No ratings yet
Parallel Computing Lab4
13 pages
CPU vs GPU Matrix Multiplication Code
No ratings yet
CPU vs GPU Matrix Multiplication Code
5 pages
HPC 4 B
No ratings yet
HPC 4 B
5 pages
OpenMP Matrix
No ratings yet
OpenMP Matrix
6 pages
OSSP Assignment 3
No ratings yet
OSSP Assignment 3
7 pages
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
No ratings yet
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
7 pages
Mat Multipli
No ratings yet
Mat Multipli
4 pages
Matrix Multiplication with Pthreads
No ratings yet
Matrix Multiplication with Pthreads
3 pages
UNIT-5 Tiling
No ratings yet
UNIT-5 Tiling
23 pages
High Performance Computing Test II
No ratings yet
High Performance Computing Test II
10 pages
Matrix-Matrix Multiplication Using Shared Memory
No ratings yet
Matrix-Matrix Multiplication Using Shared Memory
27 pages

Cuda4 2

Uploaded by

Cuda4 2

Uploaded by

// matrix_mul.

__global__ void matMul(float *A, float *B, float *C, int N) {

int row = blockIdx.y * blockDim.y + threadIdx.y;

int col = blockIdx.x * blockDim.x + threadIdx.x;

if (row < N && col < N) {

for (int k = 0; k < N; k++)

sum += A[row * N + k] * B[k * N + col];

C[row * N + col] = sum;

int N = 2; // 2x2 matrix for simplicity

size_t size = N * N * sizeof(float);

float A[] = {1, 2, 3, 4};

float B[] = {5, 6, 7, 8};

float *d_A, *d_B, *d_C;

cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);

cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);

dim3 threads(16, 16);

dim3 blocks((N+15)/16, (N+15)/16);

matMul<<<blocks, threads>>>(d_A, d_B, d_C, N);

cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);

printf("Result Matrix C:\n");

for (int i = 0; i < N*N; i++) {

printf("%f ", C[i]);

You might also like

global void matMul(float A, float B, float *C, int N) {

float d_A, d_B, *d_C;