0% encontró este documento útil (0 votos)

26 vistas55 páginas

Clase 6 - ProgramacionCUDA2 - 2025

El documento aborda la programación masivamente paralela en GPUs utilizando CUDA, centrándose en el acceso coalesced a la memoria global y la memoria compartida. Se discuten conceptos como conflictos de bancos, errores en tiempo de ejecución y recomendaciones de rendimiento. Además, se presentan ejemplos prácticos para ilustrar el uso eficiente de la memoria en el contexto de CUDA.

Cargado por

Vale Diaz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

26 vistas55 páginas

Clase 6 - ProgramacionCUDA2 - 2025

Cargado por

Vale Diaz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Programación masivamente paralela en

procesadores gráficos (GPUs)

E. Dufrechou , M. Freire, P. Ezzatti y M. Pedemonte

Clase 6 – Programación CUDA II PMPenGPU

Clase 6
Programación CUDA II

Clase 6 – Programación CUDA II PMPenGPU

Contenido

• Acceso Coalesced a Memoria Global

• Memoria compartida
– Conflicto de bancos
– Tiling
• Errores en tiempo de ejecución
• Código PTX
• Algunas recomendaciones de performance

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• El acceso a memoria global es por segmentos.

• Incluso cuando solamente se quiere leer una palabra.
• Si no se usan todos los datos de un segmento, se está
desperdiciando ancho de banda.
• Los segmentos están alineados a múltiplos de 128 bytes.
• El acceso no alineado es más costoso que el acceso alineado.
• Se desperdicia ancho de banda.

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Coalesced access:
– Según Merriam-Webster “to unite into a whole” (unir en un todo).
– Podríamos traducirlo como acceso unido o fusionado.
• Cada solicitud de acceso a memoria global de un warp:
– se puede partir en varias solicitudes
– cada solicitud es atendida (issued) independientemente.
• Los accesos a memoria de hilos de un warp se fusionan en una
o más transacciones según características que dependen de las
compute capability de la tarjeta.

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Desde compute capabilities 3.x:

– Las transacciones a memoria global son cacheadas.
– Hay un caché L1 para cada multiprocesador y un caché L2 compartido
por todos los multiprocesadores.
– Las caché lines son de 128 bytes y se mapean a segmentos alineados de
128 bytes de la memoria global.
– Los accesos a memoria caché en L1 y L2 usan transacciones de 128 bytes.
– Los accesos a memoria caché solamente en L2 usan transacciones de 32
bytes. Que los accesos sean solamente a L2 puede configurarse usando
modificadores en las instrucciones load y store.

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Desde compute capabilities 3.x:

– Si el tamaño de la palabra es de 8 bytes, se realizan dos solicitudes de
128 bytes, una para cada half-warp.
– Si el tamaño de la palabra es de 16 bytes, se realizan cuatro solicitudes
de 128 bytes, una para cada quarter-warp.
– Cada solicitud se particiona en cache-lines.
– Si se produce un miss, se accede a la memoria global.
– Los hilos pueden acceder a las palabras en cualquier orden, incluso a las
mismas palabras.

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• El espacio de direcciones está particionado en segmentos

• Cuando se solicita una dirección de un segmento, se entregan los
datos correspondientes a todas las direcciones del segmento.
• Si todos los hilos del warp acceden al mismo segmento, se hace
una sola solicitud y se usan todos los datos.
• Cuando los accesos están distribuidos entre distintos segmentos:
– Se realizan múltiples solicitudes
– Hay datos a los que se accede y que se transfieren de la memoria a los
multiprocesadores que no son usados por los hilos
• Ejemplo de acceso de un warp serán a direcciones consecutivas:
– A[threadIdx.x]

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Ejemplo 1:
__global__ void CopiaOffset(float *output, float *input, int offset) {
int idx = blockIdx.x * blockDim.x + threadIdx.x + offset;
output[idx] = input[idx];
}

– Lanzando 10000 veces 320 bloques de 128 hilos en una 9800 GTX+
(Comp. Cap 1.1, 512 MB, 128 CUDA cores)

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Ejemplo 1:
__global__ void CopiaOffset(float *output, float *input, int offset) {
int idx = blockIdx.x * blockDim.x + threadIdx.x + offset;
output[idx] = input[idx];
}

– Lanzando 10000 veces 320 bloques de 128 hilos en una 480 (Comp. Cap
2.0, 1536 MB, 480 CUDA cores)
Offset GB/s
0 49.22
1 a 15 44.88
16 46.24
El pico teórico es 177 GB/s
17 a 31 44.88
32 49.22

Clase 6 – Programación CUDA II PMPenGPU

Acceso a Memoria Global

• Attenti al lupo:
– Cuando una instrucción no atómica ejecutada por un warp debe escribir
en la misma dirección de la memoria global para más de un hilo del warp
– Además del problema de race condition que se produce, de acuerdo al
funcionamiento de CUDA solamente un hilo realiza la escritura
– Está indefinido cual de los hilos!!!

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

• Ejemplo 2 (Robert Strzodka):

Array of Structs (AoS) Struct of Arrays (SoA)

struct NormalStruct { struct SoAContainer{
Type1 comp1; Type1 comp1[SIZE];
Type2 comp2; Type2 comp2[SIZE];
Type3 comp3; Type3 comp3[SIZE];
}; };

typedef NormalStruct SoAContainer container;

AoSContainer[SIZE];

AoSContainer container;

Clase 6 – Programación CUDA II PMPenGPU

Acceso Coalesced a Memoria Global

global void reduction(float * output, float * input) {

__shared__ float compartida1[CANT_HILOS];
__shared__ float compartida2[CANT_HILOS];
…
};

reduction <<<N_BLOCK,CANT_HILOS>>> (output,input);

Clase 6 – Programación CUDA II PMPenGPU

Memoria Compartida
• También puede ser una matriz:

#define TILE_WIDTH 128

global void reduction(float * output, float * input) {

__shared__ float compartida[TILE_WIDTH][TILE_WIDTH];
…
};

reduction <<<N_BLOCK,CANT_HILOS>>> (output,input);

Clase 6 – Programación CUDA II PMPenGPU

Memoria Compartida
• Para declarar la memoria compartida se puede hacer en forma
dinámica con extern:

global void reduction(float * output, float * input) {

extern __shared__ float compartida[];
…
};

reduction <<<N_BLOCK,CANT_HILOS,
CANT_HILOS*sizeof(float)>>> (output,input);

Clase 6 – Programación CUDA II PMPenGPU

Memoria Compartida
• También es posible “partir” el tamaño reservado cuando se usa
extern en varias estructuras:

global void reduction(float * output, float * input) {

extern __shared__ float auxiliar[];

float* compartida1 = auxiliar;

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución

• CUDA no avisa cuando se produce un error.

• Veamos un ejemplo:
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000;j++) {

inputCPU[j]=j+1.1f;
}

cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice);
cudaFree(inputGPU);
return 0;
• input
} no tiene memoria reservada y no da error!!!!
Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución

• CUDA provee cuatro funciones para el manejo de errores:

• cudaError_t cudaGetLastError ():Devuelve el último
error de una invocación en tiempo de ejecución. Resetea el estado a
cudaSuccess.
• cudaError_t cudaPeekAtLastError():Devuelve el último
error de una invocación en tiempo de ejecución. NO resetea el estado
a cudaSuccess.
• char* cudaGetErrorName(cudaError_t error):Dado un
código de error devuelve la string que representa el error.
• char* cudaGetErrorString(cudaError_t error):Dado
un código de error devuelve la descripción del error.

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución
• Las invocaciones a operaciones como transferencias o reservas
y liberación de memoria ya devuelven un cudaError_t.
• Por lo que basta con usar la función cudaGetErrorString
para desplegar el error.
• Por ejemplo se puede definir:
#define CUDA_CHK(ans) { gpuAssert((ans), __FILE__, __LINE__); }

inline void gpuAssert(cudaError_t code, const char *file, int line,

bool abort=true){

if (code != cudaSuccess){
fprintf(stderr,"GPUassert: %s %s %d\n",cudaGetErrorString(code),
file, line);
if (abort) exit(code);
}
}

• Y se usa CUDA_CHK como wrapper de la invocación.

Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución

A ver…
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}

cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice);
CUDA_CHK( cudaFree(inputGPU) );
return 0;
}

Sigue sin fallar!!!! y entonces????

Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución

• Los errores de CUDA son “asíncronos”.

– El fallo se produce en cudaMemcopy.
– La llamada a cudaFree se realiza pero sin ejecutarse.
• Sugerencias:
– Envolver todas las llamadas la biblioteca CUDA con CUDA_CHK()

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución
Ahora si!!!
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}

CUDA_CHK(cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice));
CUDA_CHK(cudaFree(inputGPU));
return 0;
}

GPUassert: invalid argument [Link] 26 (línea del cudaMemcpy)

Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución

• En las invocaciones a kernels:

– No se puede envolver la llamada al kernel con CUDA_CHK()
– Como los kernels se ejecutan de forma asíncrona, se debe realizar un
cudaDeviceSynchronize()luego de la invocación al kernel.
– La invocación a cudaDeviceSynchronize() puede ser envuelta
CUDA_CHK().

– La sincronización obliga a que el kernel llegue hasta el final de su

ejecución, por lo que nos devuelve los errores en la ejecución del kernel.

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución

• Veamos con un ejemplo, agreguemos kernel1:

__global__ void kernel1(float *v)
{
int i = threadIdx.x;

v[i*1000] = v[i]+v[i];
}

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}
kernel1<<<1,10000>>>(inputGPU);
CUDA_CHK (cudaDeviceSynchronize());
CUDA_CHK(cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice));
CUDA_CHK(cudaFree(inputGPU));
return 0;
}

GPUassert: invalid argument [Link] 36 (línea del

cudaDeviceSynchronize)
Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
CUDA_CHK (cudaMalloc((void **)&inputGPU, size));
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}
CUDA_CHK(cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice));
kernel1<<<1,10000>>>(inputGPU);
CUDA_CHK (cudaDeviceSynchronize());
CUDA_CHK(cudaFree(inputGPU));
return 0;
}
NO DA ERROR!!!!! Cómo puede ser???

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución

• Hay dos errores:

– Uno en la invocación: no pueden haber 10000 hilos en un bloque.
– Otra en el propio kernel: que accede a memoria no reservada.
– El primer error hace que el kernel no se ejecute por lo que no
detectamos el error en el cudaDeviceSynchronize()pero tampoco
es capturado.
– Para capturar ese error debemos hacer una invocación a
cudaGetLastError() envuelta en CUDA_CHK() entre la llamada
al kernel y la sincronización.

Clase 6 – Programación CUDA II PMPenGPU

Errores en tiempo de ejecución
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
CUDA_CHK cudaMalloc((void **)&inputGPU, size));
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}
CUDA_CHK(cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice));
kernel1<<<1,10000>>>(inputGPU);
CUDA_CHK (cudaGetLastError() );
CUDA_CHK (cudaDeviceSynchronize());
CUDA_CHK(cudaFree(inputGPU));
return 0;
}

GPUassert: invalid configuration argument [Link] 38 (línea del

cudaGetLastError()
Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución
#include <cuda_runtime.h>

int main(int argc, char *argv[]){

float * inputGPU = NULL;

int size = 1000 * sizeof(float);
CUDA_CHK cudaMalloc((void **)&inputGPU, size));
float * inputCPU = NULL;
inputCPU = (float*) malloc (size);

for (int j=0;j<1000);j++) {

inputCPU[j]=j+1.1f;
}
CUDA_CHK(cudaMemcpy(inputGPU,inputCPU,size,cudaMemcpyHostToDevice));
kernel1<<<1,1000>>>(inputGPU);
CUDA_CHK (cudaGetLastError() );
CUDA_CHK (cudaDeviceSynchronize());
CUDA_CHK(cudaFree(inputGPU));
return 0;
}

GPUassert: an illegal memory access was encountered [Link] 39

(línea del cudaDeviceSynchronize())
Clase 6 – Programación CUDA II PMPenGPU
Errores en tiempo de ejecución

• En resumen:
– Envolver todas las llamadas la biblioteca CUDA con CUDA_CHK()
– Incluir un CUDA_CHK(cudaGetLastError()) inmediatamente
después de la invocación al kernel.
– Incluir un CUDA_CHK(cudaDeviceSynchronize())
inmediatamente después del paso anterior.

Clase 6 – Programación CUDA II PMPenGPU

Código PTX

Clase 6 – Programación CUDA II PMPenGPU

Código PTX

Recordemos la C/C++ CUDA

Application
compilación

NVCC CPU Code

El código PTX puede
obtenerse
PTX Code

Puede dar pistas de

PTX to Target
posibles optimizaciones Compiler
del código

G80 … GPU

Target code
Clase 6 – Programación CUDA II PMPenGPU
Código PTX

• El código PTX se puede obtener compilando con la flag –ptx:

nvcc –ptx [Link]

• Se genera el archivo [Link]

• El código PTX permite hilar muy fino en aspectos del código
CUDA que impactan en la performance.

Clase 6 – Programación CUDA II PMPenGPU

Código PTX

global void CopiaRara(float * output, float * input){

int idx = blockIdx.x * blockDim.x + threadIdx.x;
output[idx] = input[idx] * 2.27;
}

• Inspeccionemos el código resultante (ver [Link]).

[Link].f32 %f1, [%rd4+0]; // id:17

cvt.f64.f32 %fd1, %f1; //
mov.f64 %fd2, 0d400228f5c28f5c29; // 2.27
mul.f64 %fd3, %fd1, %fd2; //
[Link].f32.f64 %f2, %fd3; //

Clase 6 – Programación CUDA II PMPenGPU

Código PTX

global void CopiaRara(float * output, float * input){

int idx = blockIdx.x * blockDim.x + threadIdx.x;
output[idx] = input[idx] * 2.27f;
}

• Inspeccionemos el código resultante (ver [Link]).

• El mismo fragmento de programa se transformó en:

[Link].f32 %f1, [%rd4+0]; // id:17

mov.f32 %f2, 0f401147ae; // 2.27
mul.f32 %f3, %f1, %f2;

Clase 6 – Programación CUDA II PMPenGPU

Algunas recomendaciones adicionales
sobre performance

Clase 6 – Programación CUDA II PMPenGPU

Algunas recomendaciones adicionales
sobre performance

• Evitar la divergencia de hilos dentro de un warp.

• El número de bloques debe ser mayor al número de
multiprocesadores:
- De forma de mantener a todos los multiprocesadores ocupados.
- Para permitir ocultar latencias cuando un bloque está trancado con un
__syncthreads() debe ser mayor al doble del número de
multiprocesadores.
• El número de hilos por bloque debe ser un múltiplo de 32
(tamaño de warp).

Clase 6 – Programación CUDA II PMPenGPU

También podría gustarte

Guía de Programación CUDA
Aún no hay calificaciones
Guía de Programación CUDA
9 páginas
Clase 7 - Parte 1 - 2025
Aún no hay calificaciones
Clase 7 - Parte 1 - 2025
12 páginas
Programación CUDA en Mecánica Computacional
Aún no hay calificaciones
Programación CUDA en Mecánica Computacional
15 páginas
Clase 8 - OpenCL - 2025
Aún no hay calificaciones
Clase 8 - OpenCL - 2025
21 páginas
CUDA Tutorial ECAR
Aún no hay calificaciones
CUDA Tutorial ECAR
34 páginas
T4 Mem+Prog+Ejec CUDA
Aún no hay calificaciones
T4 Mem+Prog+Ejec CUDA
75 páginas
Pycuda PDF
100% (1)
Pycuda PDF
6 páginas
Pycuda
Aún no hay calificaciones
Pycuda
6 páginas
Guía Completa de Programación CUDA
Aún no hay calificaciones
Guía Completa de Programación CUDA
20 páginas
Introducción a CUDA y Programación Paralela
Aún no hay calificaciones
Introducción a CUDA y Programación Paralela
31 páginas
Guia de Instalacion de CUDA C
Aún no hay calificaciones
Guia de Instalacion de CUDA C
39 páginas
Introducción a CUDA y GPUs
Aún no hay calificaciones
Introducción a CUDA y GPUs
88 páginas
Examen 3
Aún no hay calificaciones
Examen 3
6 páginas
Introducción a CUDA y Programación en GPU
Aún no hay calificaciones
Introducción a CUDA y Programación en GPU
8 páginas
Ejercicios de CUDA sobre Suma de Vectores
Aún no hay calificaciones
Ejercicios de CUDA sobre Suma de Vectores
4 páginas
Avances en Programación Paralela y Distribuida
100% (1)
Avances en Programación Paralela y Distribuida
45 páginas
Examen de Programación de GPUs Con CUDA (Lunes, 31 de Mayo) - Revisión Del Intento
Aún no hay calificaciones
Examen de Programación de GPUs Con CUDA (Lunes, 31 de Mayo) - Revisión Del Intento
8 páginas
Clase 4 - Arquitectura - 2025
Aún no hay calificaciones
Clase 4 - Arquitectura - 2025
53 páginas
Lecture 02b
Aún no hay calificaciones
Lecture 02b
33 páginas
Introducción a Arquitecturas GPU
100% (1)
Introducción a Arquitecturas GPU
36 páginas
Introducción a CUDA y Programación Paralela
Aún no hay calificaciones
Introducción a CUDA y Programación Paralela
10 páginas
Memoria Compartida en Sistemas Distribuidos
Aún no hay calificaciones
Memoria Compartida en Sistemas Distribuidos
22 páginas
Jerarquía y Mapeo de Memoria Cache
Aún no hay calificaciones
Jerarquía y Mapeo de Memoria Cache
18 páginas
Paralelismo a Nivel de Datos en DLP
Aún no hay calificaciones
Paralelismo a Nivel de Datos en DLP
7 páginas
Computación de Alto Rendimiento
Aún no hay calificaciones
Computación de Alto Rendimiento
28 páginas
Clase 4 - 5 Intro Programacion Paralela
Aún no hay calificaciones
Clase 4 - 5 Intro Programacion Paralela
50 páginas
Cluster Memoria Compartida
Aún no hay calificaciones
Cluster Memoria Compartida
30 páginas
Clase 5 - ProgramacionCUDA - 2025
Aún no hay calificaciones
Clase 5 - ProgramacionCUDA - 2025
38 páginas
GD CP 2324
Aún no hay calificaciones
GD CP 2324
8 páginas
Programacion Concurrente y Paralela
Aún no hay calificaciones
Programacion Concurrente y Paralela
10 páginas
Creación y Uso de Hilos en Programación Paralela
Aún no hay calificaciones
Creación y Uso de Hilos en Programación Paralela
30 páginas
01 Introduccion GPGPU CUDA 2en1 MartinezZarzuela
Aún no hay calificaciones
01 Introduccion GPGPU CUDA 2en1 MartinezZarzuela
29 páginas
Ttrasp 2
Aún no hay calificaciones
Ttrasp 2
32 páginas
Arqii - 11 Gpu 2015
Aún no hay calificaciones
Arqii - 11 Gpu 2015
17 páginas
Fundamentos de Programación Paralela
Aún no hay calificaciones
Fundamentos de Programación Paralela
7 páginas
Resumen Capítulo I - Programming Massively Parallel Processors
Aún no hay calificaciones
Resumen Capítulo I - Programming Massively Parallel Processors
5 páginas
Introducción a la Programación Paralela en C
Aún no hay calificaciones
Introducción a la Programación Paralela en C
31 páginas
Reconstrucción de Código en C/C++
Aún no hay calificaciones
Reconstrucción de Código en C/C++
81 páginas
Memoria Compartida en Sistemas Distribuidos
Aún no hay calificaciones
Memoria Compartida en Sistemas Distribuidos
10 páginas
T4 Operaciones Reduccion
Aún no hay calificaciones
T4 Operaciones Reduccion
10 páginas
Introducción a Sistemas Computacionales
Aún no hay calificaciones
Introducción a Sistemas Computacionales
84 páginas
t4 Intro Gpgpu
Aún no hay calificaciones
t4 Intro Gpgpu
10 páginas
Memoria Compartida Distribuida PDF
Aún no hay calificaciones
Memoria Compartida Distribuida PDF
19 páginas
Multiprocesadores y Redes de Interconexión
Aún no hay calificaciones
Multiprocesadores y Redes de Interconexión
75 páginas
Compiladores C para Microcontroladores PIC
Aún no hay calificaciones
Compiladores C para Microcontroladores PIC
10 páginas
Memoria Compartida Distribuida
Aún no hay calificaciones
Memoria Compartida Distribuida
15 páginas
Arquitectura de Entrada/Salida en Sistemas Operativos
Aún no hay calificaciones
Arquitectura de Entrada/Salida en Sistemas Operativos
60 páginas
Programación Paralela y CUDA: Algoritmos Clave
Aún no hay calificaciones
Programación Paralela y CUDA: Algoritmos Clave
25 páginas
Memoria Compartida en Sistemas Operativos
Aún no hay calificaciones
Memoria Compartida en Sistemas Operativos
17 páginas
Programación Paralela en Python
Aún no hay calificaciones
Programación Paralela en Python
32 páginas
Arquitecturas de Cómputo: Tipos y Análisis
Aún no hay calificaciones
Arquitecturas de Cómputo: Tipos y Análisis
21 páginas
Informática II: Sistemas Embebidos R2004
Aún no hay calificaciones
Informática II: Sistemas Embebidos R2004
12 páginas
Temario de Arquitectura de Computadoras
Aún no hay calificaciones
Temario de Arquitectura de Computadoras
3 páginas
Programación de Microcontroladores en C
Aún no hay calificaciones
Programación de Microcontroladores en C
34 páginas
Grupo 301302 54 TrabCol2 Alejandr Delgado
Aún no hay calificaciones
Grupo 301302 54 TrabCol2 Alejandr Delgado
8 páginas
Clusters
Aún no hay calificaciones
Clusters
14 páginas
Arquitecturas de Memoria: Compartida vs Distribuida
Aún no hay calificaciones
Arquitecturas de Memoria: Compartida vs Distribuida
4 páginas
Temario Arquitectura de Computadoras
Aún no hay calificaciones
Temario Arquitectura de Computadoras
2 páginas
Computación Paralela con GPUs y CUDA
100% (1)
Computación Paralela con GPUs y CUDA
73 páginas
Clase 7 - Patrones - 2025
Aún no hay calificaciones
Clase 7 - Patrones - 2025
42 páginas
Análisis del Salmo 1: Justos y Pecadores
0% (1)
Análisis del Salmo 1: Justos y Pecadores
2 páginas
King y Malcolm X: Métodos en Conflicto
Aún no hay calificaciones
King y Malcolm X: Métodos en Conflicto
1 página
La Descolonizacion de Africa
Aún no hay calificaciones
La Descolonizacion de Africa
1 página
Jahro-Top 100-Octubre 2025 en Pesos
Aún no hay calificaciones
Jahro-Top 100-Octubre 2025 en Pesos
29 páginas
Historia y Aplicaciones de la Mecatrónica
Aún no hay calificaciones
Historia y Aplicaciones de la Mecatrónica
2 páginas
Normas de Programacion de PLC
Aún no hay calificaciones
Normas de Programacion de PLC
46 páginas
Guía de Instalación y Configuración de Balanceador TP LINK TL R480T Rev3
Aún no hay calificaciones
Guía de Instalación y Configuración de Balanceador TP LINK TL R480T Rev3
5 páginas
Especificación de Caso de Uso de Negocio
Aún no hay calificaciones
Especificación de Caso de Uso de Negocio
7 páginas
15.0.3 Class Activity - What's Going On
Aún no hay calificaciones
15.0.3 Class Activity - What's Going On
4 páginas
Optimización del Soporte Técnico Empresarial
50% (2)
Optimización del Soporte Técnico Empresarial
2 páginas
Examen Informatica 1 BACH
Aún no hay calificaciones
Examen Informatica 1 BACH
3 páginas
Principios y Prácticas de Pruebas de Software
Aún no hay calificaciones
Principios y Prácticas de Pruebas de Software
14 páginas
Servitec Presentacion Sargent 6128
Aún no hay calificaciones
Servitec Presentacion Sargent 6128
4 páginas
Topología Acceso Fitel - Claro Movil - 19112020
Aún no hay calificaciones
Topología Acceso Fitel - Claro Movil - 19112020
18 páginas
Guía de Uso de Dev-C++ para Programación
Aún no hay calificaciones
Guía de Uso de Dev-C++ para Programación
5 páginas
Programa y Diagramas Arquitectónicos
Aún no hay calificaciones
Programa y Diagramas Arquitectónicos
7 páginas
Safety Conf Prog Programming Manual esES es-ES
Aún no hay calificaciones
Safety Conf Prog Programming Manual esES es-ES
626 páginas
Estructura de Computadores: Memoria y CPU
Aún no hay calificaciones
Estructura de Computadores: Memoria y CPU
20 páginas
Analisis de Circuitos (METODOS DE SOLUCION)
Aún no hay calificaciones
Analisis de Circuitos (METODOS DE SOLUCION)
52 páginas
Trabajo de Máquinas Virtuales PDF
Aún no hay calificaciones
Trabajo de Máquinas Virtuales PDF
14 páginas
Diferencias entre Licencias OEM, OLP y Freeware
Aún no hay calificaciones
Diferencias entre Licencias OEM, OLP y Freeware
2 páginas
Protocolo TFTP
Aún no hay calificaciones
Protocolo TFTP
17 páginas
Trabajo de Informatica
Aún no hay calificaciones
Trabajo de Informatica
4 páginas
Guia Instalacion Windows 11
Aún no hay calificaciones
Guia Instalacion Windows 11
3 páginas
Sistemas Basados en la Nube: Guía Esencial
Aún no hay calificaciones
Sistemas Basados en la Nube: Guía Esencial
2 páginas
Paso A Paso - ¿Cómo Iniciar y Terminar Sesión
Aún no hay calificaciones
Paso A Paso - ¿Cómo Iniciar y Terminar Sesión
9 páginas
HK80 Estandar 0424
Aún no hay calificaciones
HK80 Estandar 0424
2 páginas
Intrucciones Win 10
Aún no hay calificaciones
Intrucciones Win 10
4 páginas
NewsAccess PDF
Aún no hay calificaciones
NewsAccess PDF
381 páginas
Manual de Empleo Leica GPS900
Aún no hay calificaciones
Manual de Empleo Leica GPS900
150 páginas
Fundamentos de Sistemas Operativos
Aún no hay calificaciones
Fundamentos de Sistemas Operativos
4 páginas
Historia y Evolución de la Computadora
Aún no hay calificaciones
Historia y Evolución de la Computadora
80 páginas
Dispositivos ST3 PDF
Aún no hay calificaciones
Dispositivos ST3 PDF
20 páginas

Clase 6 - ProgramacionCUDA2 - 2025

Cargado por

Clase 6 - ProgramacionCUDA2 - 2025

Cargado por

Programación masivamente paralela en

procesadores gráficos (GPUs)

E. Dufrechou , M. Freire, P. Ezzatti y M. Pedemonte

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• Acceso Coalesced a Memoria Global

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• El acceso a memoria global es por segmentos.

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• Desde compute capabilities 3.x:

Clase 6 – Programación CUDA II PMPenGPU

• Desde compute capabilities 3.x:

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• El espacio de direcciones está particionado en segmentos

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• Ejemplo 2 (Robert Strzodka):

Array of Structs (AoS) Struct of Arrays (SoA)

typedef NormalStruct SoAContainer container;

Clase 6 – Programación CUDA II PMPenGPU

• Ejemplo 2 (Robert Strzodka):

Array of Structs (AoS): container[1].comp3;

Struct of Arrays (SoA): container.comp3[1];

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• Es cientos de veces más rápida (tanto en latencia como en

Clase 6 – Programación CUDA II PMPenGPU

• Los contenidos y el uso de este tipo de memoria deben ser

Clase 6 – Programación CUDA II PMPenGPU

#define CANT_HILOS 128

__global__ void reduction(float * output, float * input) {

reduction <<<N_BLOCK,CANT_HILOS>>> (output,input);

Clase 6 – Programación CUDA II PMPenGPU

#define TILE_WIDTH 128

__global__ void reduction(float * output, float * input) {

reduction <<<N_BLOCK,CANT_HILOS>>> (output,input);

Clase 6 – Programación CUDA II PMPenGPU

__global__ void reduction(float * output, float * input) {

Clase 6 – Programación CUDA II PMPenGPU

__global__ void reduction(float * output, float * input) {

float* compartida1 = auxiliar;

Clase 6 – Programación CUDA II PMPenGPU

• La memoria compartida se divide en módulos del mismo

Clase 6 – Programación CUDA II PMPenGPU

• Palabras de 32 bits contiguas están en bancos contiguos.

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• No hay conflicto y el acceso es rápido cuando:

• El acceso es más lento cuando:

Clase 6 – Programación CUDA II PMPenGPU

• Debido a que es más rápida que la memoria global suele usarse

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• Se divide el contenido de la memoria global en tiles (bloques?)

Clase 6 – Programación CUDA II PMPenGPU

• Se divide el contenido de la memoria global en tiles (bloques?)

Clase 6 – Programación CUDA II PMPenGPU

• Esquema general del Tiling:

Clase 6 – Programación CUDA II PMPenGPU

Clase 6 – Programación CUDA II PMPenGPU

• CUDA no avisa cuando se produce un error.

int main(int argc, char *argv[]){

float * inputGPU = NULL;

for (int j=0;j<1000;j++) {

• CUDA provee cuatro funciones para el manejo de errores:

Clase 6 – Programación CUDA II PMPenGPU

inline void gpuAssert(cudaError_t code, const char *file, int line,

• Y se usa CUDA_CHK como wrapper de la invocación.

int main(int argc, char *argv[]){

global void reduction(float * output, float * input) {

global void reduction(float * output, float * input) {

global void reduction(float * output, float * input) {

global void reduction(float * output, float * input) {

global void CopiaRara(float * output, float * input){

global void CopiaRara(float * output, float * input){