0% encontró este documento útil (0 votos)

340 vistas51 páginas

Procesamiento y Arquitecturas Paralelas

El documento introduce conceptos sobre procesamiento paralelo, cuyo objetivo principal es aumentar el rendimiento mediante la división de una tarea en partes independientes que se ejecutan simultáneamente en múltiples unidades de proceso. También describe características de sistemas paralelos como el número de procesadores, tipo de memoria y rendimiento, así como niveles y arquitecturas de paralelismo.

Cargado por

kanzazz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

340 vistas51 páginas

Procesamiento y Arquitecturas Paralelas

Cargado por

kanzazz

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Introducción a las

Arquitecturas Paralelas

Arquitectura de Computadoras II
Fac. Cs. Exactas
UNCPBA
Prof. Marcelo Tosini
2015
Procesamiento Paralelo
Uso de muchas unidades de proceso independientes para
ejecutar distintas partes de una tarea en simultáneo

Principal objetivo: Aumento del RENDIMIENTO. Aumento de la capacidad

para resolver problemas computacionales grandes

¿Cómo?
• División del trabajo en tareas mas pequeñas e independientes
• Asignación de las tareas a distintas unidades de proceso
• Resolución de las tareas en simultaneo.

Problemas:
• Sincronización de las tareas.
• control de ejecución simultanea
• conflictos debidos a dependencias
2
Procesamiento Paralelo
Limitaciones:
En algunos problemas el incremento del número de procesadores no
mejora el rendimiento global, incluso empeora la eficiencia del sistema.

La eficiencia se mejora cuando:

• se logra un balance de carga entre procesadores: igual

numero de tareas de igual tamaño

• Se minimiza la interacción entre tareas:

eficiencia
se minimiza la comunicación o, al menos,
se mejoran los canales de comunicación

elementos de proceso

3
Sistema paralelo
Conjunto de elementos de proceso que, operando juntos, permiten
resolver problemas computacionales complejos de forma eficiente

Características de un sistema paralelo:

• Cantidad y potencia de los elementos de proceso

• Tipo y Tamaño de la memoria

• Forma de comunicación entre los elementos de proceso

• Rendimiento

• Escalabilidad del sistema

• Recursos de potencia requeridos

4
Niveles de paralelismo
El paralelismo puede estudiarse a varios niveles:

• Trabajo: Dos programas distintos pueden ejecutarse en paralelo

• Tarea: En este nivel se consideran varias tareas independientes
entre si formando parte de un programa determinado. Es
posible la interacción de las tareas
• Proceso: Varios procesos componen una tarea. Son bloques con
funcionalidad bien definida.
• Variable: El paralelismo puede darse a nivel de variables ya que
varias instrucciones pueden ser ejecutadas en paralelo
siendo el punto de conflicto las variables en común
• Bit: Todos los computadores usan paralelismo a nivel de bit

5
Arquitecturas de procesadores
Complejidad del procesador:

Arquitectura característica y estructura de cada procesador del

sistema.

Íntimamente ligado con la funcionalidad

(variedad de operaciones y cantidad de instrucciones)

Arreglos sistólicos homogéneos complejidad baja

MIMD Heterogéneos complejidad alta

6
Arquitecturas de procesadores
Modo de operación:
Forma de controlar la secuencia de operaciones a realizar para
llevar adelante la ejecución de una tarea
Control flow
Las instrucciones se ejecutan en el orden dispuesto por
el algoritmo
Data flow
Las operaciones se realizan según la disponibilidad de
datos
Demand flow
Los resultados parciales se calculan por demanda, o sea
cuando se los necesita

7
Arquitecturas de procesadores
Organización de la memoria:
Tipo de memoria utilizada en el sistema

Direccionable
Accedida por referencias a los datos
Asociativa
Accedida por contenido
Interconectada
Accedida por cualidades de los datos
(redes neuronales)

8
Arquitecturas de procesadores
Red de interconexión:
Conexionado de hardware entre procesadores y entre
procesadores y memorias

La arquitectura de conexionado debe ajustarse lo mejor

posible a la topología de un algoritmo para mejorar la
performance

9
Arquitecturas de procesadores
Número de procesadores y tamaño de la memoria:
Potencia de cálculo del sistema y capacidad de almacenamiento
de datos del mismo

Clasificación:
Sistemas grandes: más de 1000 procesadores

Sistemas medios: de 100 a 1000 procesadores

Sistemas chicos: hasta 100 procesadores

10
Organización de las arquitecturas
Nivel de trabajo Distribuido Redes de computadoras

Nivel de tarea Multicomputadoras Pasaje de mensajes

Nivel de proceso
Nivel de instrucción paralelo Memoria compartida
Nivel de variable multiprocesadores
Nivel de bit
HARDWARE

GRANULARIDAD GRADO DE MODO DE

DEL ALGORITMO ACOPLAMIENTO COMUNICACION

11
Ámbitos de uso de la computación
paralela
• Simulación de modelos complejos

• Diseño y automatización de proyectos de ingeniería

• Exploración petrolera y minera

• Medicina

• Área militar

• Cine: efectos visuales, animación 3D

• Realidad Virtual

• Comercio electrónico

• Mega bases de datos (google, youtube, rapidshare)

12
Evolución del rendimiento

13
Incremento de velocidad
3000 MHz XEON 3 GHz

2000 MHz
Bus CPU: 6 veces mas rápido

reloj CPU: 100 veces mas rápido

PIII 1,3 GHz

ATHLON GHz

PIII 1 GHz
1000 MHz
ATHLON 600

P II 400

500 MHz
486 DX100

100 MHz 486 DX33

89 90 91 92 93 94 95 96 97 98 99 00 01 02 03

14
Límites tecnológicos
El feature size (d) determina el tamaño de las compuertas en la
tecnología CMOS de manera que:

• Un aumento de la velocidad de reloj es proporcional a λ=1/d

• Un aumento del número de transistores es proporcional a λ2

Hasta cuanto puede disminuir d??

característica / año 1997 1999 2001 2003 2006 2009 2012

Feature Size (µmm) 0.25 0.18 0.15 0.13 0.10 0.07 0.05

Voltaje 1.8-2.5 1.5-1.8 1.2-1.5 1.2-1.5 0.9-1.2 0.6-0.9 0.5-0.6

Nº transistores 11M 21M 40M 76M 200M 520M 1.4B

DRAM bits/chip 167M 1.07G 1.7G 4.29G 17.2G 68.7G 275G

Tamaño Die (mm2) 300 340 385 430 520 620 750
Frecuencia local de reloj (MHz) 750 1250 1500 2100 3500 6000 10000
Frecuencia global de reloj (MHz) 750 1200 1400 1600 2000 2500 3000

15
Evolución de las arquitecturas
N 1
T= * *t C
P IPC

Multi tc IPC P
1 Tflop/s procesadore
s

1 Gflop/s Procesadores tc IPC>1 P

vectoriales

1 Mflop/s
Procesadores escalares tc IPC→1 P=1

1975 1990

16
Medidas de performance
Tiempo promedio de ejecución

• Instrucciones por segundo

Útil en SISD y en MIMD, pero no en SIMD
• Operaciones por segundo
No considera tamaño de palabra
• Punto flotante por segundo
No es útil en compiladores y en AI
• Inferencias por segundo
Útil en inteligencia artificial

17
Medidas de performance
Speedup (Sp - para P procesadores)

Promedio entre el tiempo de

proceso secuencial y paralelo en
T1 P procesadores
Sp =
Tp
T1 : tiempo en 1 procesador

Tp : tiempo en P procesadores
Sp < P

18
Medidas de performance
Eficiencia (Ep - para P procesadores)

Cociente entre Sp y P.
Medida de la relación costo/efectividad
Sp de la computación
Ep =
P
P : número de procesadores

Sp : Speedup con P procesadores

0 < Ep < 1

19
Medidas de performance
Redundancia (Rp - para P procesadores)

Promedio entre el número total de

operaciones ejecutadas con P proc.
Op y el número de operaciones
Rp = necesarias en 1 procesador
O1
Op : número de operaciones en
P procesadores

Rp > 1 O1 : Número de operaciones en

un procesador

20
Medidas de performance
Utilización (Up - para P procesadores)

Número de operaciones totales

ejecutadas con P procesadores
Op ponderada por la eficiencia de
Up =Rp * Ep= trabajo en esos P procesadores
P.TP
Op : número de operaciones en
P procesadores
Up < 1

21
Medidas de performance
Calidad del paralelismo (Qp - para P procesadores)

La calidad de paralelismo es
Sp * Ep proporcional al Spedup y a la
Eficiencia.
Qp =
RP La calidad de paralelismo decrece
al aumentar la Redundancia

Qp < 1

22
Límites de la computación paralela
La idea es modelar lo más aproximadamente la operación en un
entorno multiprocesador

Premisas:
Un programa paralelo es una serie de instancias de tareas
de sincronización seguidas de cálculos reales (programa)
distribuidos entre los procesadores.

Debido al overhead el tiempo total de ejecución de las

tareas distribuidas en los procesadores es mayor que si se
hubiese ejecutado en un único procesador

23
Límites de la computación paralela
Variables de cálculo:

• ts = tiempo de sincronización
• t = granularidad de tarea (tiempo de ejecución promedio de las tareas)
• to = overhead de tareas causado por la ejecución paralela
• N = cantidad de tareas entre puntos de sincronización
• P = número de procesadores

24
Límites de la computación paralela
El tiempo de ejecución secuencial de N tareas de tiempo t será

T1 = N.t
En un ambiente paralelo cada tarea requiere (t + to) unidades de tiempo
Si hay N tareas en P procesadores, entonces el número de pasos
paralelos será N/P . Entonces el tiempo de ejecución paralelo será:

TN,P = ts + N/P . (t + to)

Si N en múltiplo de P no hay penalizaciones de balance de carga al final de
cada computación

25
Límites de la computación paralela
El Speedup del sistema será:

T1 N.t
SN,p = =
TN,p ts + N/P . (t + to)

1
=
ts/(N.t) + (1/N) N/P . (1 + to/t)

26
Límites de la computación paralela
La eficiencia del sistema será:

SN,p N.t
EN,p = = /P
P ts + N/P . (t + to)

1
= /P
ts/(N.t) + (1/N) N/P . (1 + to/t)

27
Límites de la computación paralela
Métrica P →∞ , N fijo N →∞ , P fijo

SN,p N/(1 + (ts + to)/t) P/(1 + to/t)

EN,p 0 1/(1 + to/t)

28
Límites de la computación paralela
Conclusiones:

• La primera columna muestra que el speedup resultante de

incrementar el número de procesadores está limitado por
el número de tareas N, mientras que la eficiencia tiende a
0.

• La segunda columna muestra que un Speedup igual a la

cantidad de procesadores puede ser logrado realizando un
gran número de tareas, siempre y cuando el overhead sea
ínfimo respecto a la granularidad de tareas

29
Clasificación de las arquitecturas de
computadoras
Formas de paralelismo

Pipeline PLP TLP DLP ILP

(Process Level Paralelism) (Tread Level Paralelism) (Data Level Paralelism) (Instruction Level Paralelism)

Locked Multi core Coarse grain Short vector Superescalar

processors processing
Not Fine Grain (SIMD) VLIW
locked Multi processor
(MIPS
Multiprocessor systems (MIMD) SMT Vector EPIC
without Interlock
Pipeline Stages)
(Simultaneous processors
multithreading)
(SIMD)
Multi computer TTA
(MIMD)
Dataflow
30
PLP - Process level paralelism
Distintos procesos se ejecutan en diferentes procesadores paralelos o en
diferentes cores de un mismo procesador

Clasificados de acuerdo al modelo de Flynn

Modelo que permite clasificar a todas las computadoras basándose
en el estudio del paralelismo de los flujos de instrucciones y datos
exigidos por las instrucciones en los componentes más restringidos
de la máquina
• Flujo único de instrucciones, flujo único de datos.(SISD)
• Flujo único de instrucciones, flujo múltiple de datos.(SIMD)
• Flujo múltiple de instrucciones, flujo único de datos.(MISD)
• Flujo múltiple de instrucciones, flujo múltiple de datos.(MIMD)
31
SISD. Flujo único de instrucciones y datos

La CPU controla todas las operaciones que se realizan en la máquina

extrayendo secuencialmente las instrucciones de programa desde la memoria.

CPU: I/O
• Unidad de control: ejecuta una a
una las instrucciones de programa
• Unidad lógico/aritmética: realiza las ALU
operaciones sobre los datos UC
• Registros internos: se almacenan registros

datos parciales y direcciones.

Memoria

32
SIMD. Flujo único de instrucciones, flujo múltiple
de datos
Distintas operaciones
A[1] = 2 * a[0]; sobre
for (i = 1 ; i < MaxElem ; i ++) A[2] = 2 * a[1]; distintos datos
A[i] = 2 * a[i-1]; .
.
A[n-1] = 2 * a[n-2];
A[n] = 2 * a[n-1];

A[1] = 2 * b[1];
for (i = 1 ; i < MaxElem ; i ++) A[2] = 2 * b[2];
A[i] = 2 * b[i]; .
. Mismas operaciones
A[n-1] = 2 * b[n-1]; sobre
A[n] = 2 * b[n]; distintos datos

33
Arquitectura SIMD
Unidad Flujo de
funcional datos 1
1

Unidad Flujo de
Unidad funcional datos 2
de 2 Memoria
control

Unidad Flujo de
funcional datos k
k

Flujo de
instrucciones

34
Arquitectura SIMD
for (i = 1 ; i < MaxElem ; i ++)
A[i] = 2 * a[i-1];

Unidad funcional 1 A[1]=2A[0] A[2]=2A[1] A[3]=2A[2] A[4]=2A[3] A[5]=2*A[4]

Unidad funcional 2 idle idle idle idle idle
. . . . . . . . . . . . . . .
Unidad funcional k idle idle idle idle idle

Ciclo 0 1 2 3 4

35
Arquitectura SIMD
for (i = 1 ; i < MaxElem ; i ++)
A[i] = 2 * a[i];

Unidad funcional 1 A[1]=2A[1] A[k+1]=2A[k+1] A[2k+1]=2A[2k+1] A[3k+1]=2A[3k+1] A[n]=2*A[n]

Unidad funcional 2 A[2]=2A[2] A[k+2]=2A[k+2] A[2k+2]=2A[2k+2] A[3k+2]=2A[3k+2] idle

. . . . . . . . . . . . . . .
Unidad funcional k A[k]=2*A[k] A[2k]=2*A[2k] A[3k]=2*A[3k] A[4k]=2*A[4k] idle

Ciclo 0 1 2 3 4

36
MISD. Flujo múltiple de instrucciones, flujo único
de datos
Conceptualmente, varias instrucciones ejecutándose
paralelamente sobre un único dato.

Arquitecturas desacopladas y los arreglos sistólicos

Funcionan con el principio de ‘bombear’ los datos a través de una
hilera de procesadores escalares donde en cada uno de ellos se
realizan paralelamente operaciones sobre distintos datos.
Desde el punto de vista de cada dato, éste pasa de un procesador
al siguiente para transformarse de acuerdo a la operación que
realice cada procesador.

37
Arquitecturas clásicas MISD
• La información circula entre las celdas como en un pipeline
• La comunicación con el exterior se produce en las celdas frontera

Memoria

Salida Entrada
de datos
PE PE PE PE PE PE PE de datos

38
Arquitecturas clásicas MISD
Ejemplo
M[i] = ((((M[i] * 256 + 70) mod 512 - 5) and 0x7f) or 0x80) shl 2

Memoria

Salida or and mod Entrada

Shl 2 -5 +70 *256
de datos 0x80 0x7f 512 de datos

39
MIMD. Flujo múltiple de instrucciones, flujo
múltiple de datos

• Es la mejor estrategia de diseño orientada a obtener el más alto

rendimiento y la mejor relación costo/rendimiento.

• Idea general: conectar varios procesadores para obtener un

rendimiento global lo más cercano a la suma de rendimientos
de cada procesador por separado.

• La filosofía de trabajo plantea la división de un problema en

varias tareas independientes y asignar a cada procesador la
resolución de cada una de estas tareas.

40
MIMD. Flujo múltiple de instrucciones, flujo
múltiple de datos
int suma (int x, int y)
{ Procesador
return x + y; 1
}

int prom (int x, int y) Procesador

2 memoria
{
return (x + y) >> 2;
}
........................ Procesador
3

........................
a = Func (suma(Oper1, Oper2) , prom(10, Oper1));

41
TLP – Thread level paralelism
En TLP las unidades de ejecución de un procesador se comparten entre los threads
Independientes de un proceso (o threads de diferentes procesos)

COARSE GRAIN: En coarse grain multi-threading los threads son desalojados

del procesador con baja frecuencia, usualmente cuando el thread realiza alguna
I/O, o ante un fallo de cache.

FINE GRAIN: En fine grain multi-threading el thread en ejecución es cambiado

(thread swaping) en cada ciclo de reloj

SMT: Simultaneous multi-threading es similar a fine grain, pero permite ejecutar

múltiples threads en cada ciclo de reloj.
SMT permite concurrencia física, a diferencia de los anteriores que solo manejan
Concurrencia virtual (multiplexado por división de tiempo)

42
TLP – Thread level paralelism
A A A A A A A A A A A A
A A A B B B
A B B C
A C C C C
A A D D C C C D

B B B A A A A D B D
B B
B A A C
B B C C C
C C C C D D D D C C C

C C C A
D D D B
C B B
D B A
D D C
D D D D D D D A D D D
D D D A A
D D

SMT
Coarse grain Fine grain

43
DLP – Data level paralelism
• La operación se aplica a varios ítems de dato en lugar de uno

• Implementado con rutas de datos divisibles

• Por ejemplo: una ruta de 64 bits permite realizar 1 operación de 64 bits;

2 de 32 bits; 4 de 16 bits; etc.

Tipos:
• Short vector processing: uso de operadores de M bits para realizar N
operaciones de M/N bits.

• Vector processors: la ruta de datos se multiplexa en tiempo entre los

elementos del vector de operandos. No ahorra tiempo de proceso, solo
permite disminuir el tamaño del código por el uso de instrucciones
vectoriales.
44
ILP – instruction level paralelism
Ejecución paralela e instrucciones completas u operaciones

Aproximaciones: Superescalar
VLIW (Very Long Instruction Word)
EPIC (Explicit parallel Instruction Computer)
TTA (Transport Triggered Architecture)
DataFlow

Si bien todas se basan en la paralelización de instrucciones para su ejecución

difieren en la forma de emisión de las mismas

45
ILP - Superescalar
Los procesadores superescalares leen varias instrucciones a la vez en su cola de
instrucciones y dinámicamente emiten cierto número de ellas en cada ciclo de reloj.
El número y tipo de instrucciones emitidas depende de cada arquitectura.

Ventaja:
fetching
• Ejecución masiva en paralelo
buffer de
instrucciones Desventajas:
• Perdida de orden secuencial
• Problemas de dependencias
emisión
• Problemas con los saltos

unidad unidad unidad

funcional funcional funcional

46
ILP - Dataflow
Controlada por el flujo de los datos en lugar del orden de las instrucciones

• Las operaciones se almacenan en un buffer a la espera de los datos para operar

• Los resultados viajan en paquetes (tags) que contienen el valor y la lista de
operaciones destino (que usan ese valor como operando)
• Cuando una operación tiene todos sus operandos, se dispara y ejecuta.

unidad funcional
memoria de
unidad funcional
operaciones
unidad funcional

• Hay una unidad de emisión que unidad unidad unidad

decide que instrucciones se emiten y a funcional funcional funcional
que unidades
Desventajas:
• Mayor ancho del bus de datos desde memoria de instrucciones.
• Banco de registros con varios puertos de lectura/escritura.
• La planificación se realiza en el compilador (como en VLIW)
49
ILP - TTA
La idea básica de TTA es permitir a los programas el control total de los caminos
internos de movimiento de datos dentro del procesador.

La arquitectura se compone básicamente de unidades funcionales, buses y registros.

Las entradas de las unidades funcionales tienen puertos disparables (triggering ports)
que permiten activar una operación determinada cuando todos los puertos tienen
datos válidos para la instrucción a realizar.

Una palabra de instrucción TTA esta compuesta de múltiples slots, uno por bus.

TTA es similar a VLIW pero con mayor control sobre el hardware.

50
ILP - TTA
ejemplo:

En RISC

add r3, r1, r2

En TTA

r1 -> ALU.operand1
r2 -> ALU.add.trigger
ALU.result -> r3

También podría gustarte

6ta Consigna
Aún no hay calificaciones
6ta Consigna
2 páginas
Gestión Outbound en Call Centers
Aún no hay calificaciones
Gestión Outbound en Call Centers
32 páginas
Sistemas Administrativos PDF
Aún no hay calificaciones
Sistemas Administrativos PDF
14 páginas
Guía de Cursogramas Empresariales
Aún no hay calificaciones
Guía de Cursogramas Empresariales
3 páginas
Replanteo de Costos en Educación
Aún no hay calificaciones
Replanteo de Costos en Educación
19 páginas
Silabo Procesos Industriales
Aún no hay calificaciones
Silabo Procesos Industriales
4 páginas
Fundamentos de Contabilidad Básica
Aún no hay calificaciones
Fundamentos de Contabilidad Básica
25 páginas
Contabilidad Básica para RRHH
100% (1)
Contabilidad Básica para RRHH
8 páginas
452 SOCIOLOGIA DE LA ORGANIZACION Catedra FASSIO PDF
100% (1)
452 SOCIOLOGIA DE LA ORGANIZACION Catedra FASSIO PDF
11 páginas
Costos y Gestión Resumen
Aún no hay calificaciones
Costos y Gestión Resumen
50 páginas
Control Interno - J. Schuster (1992)
Aún no hay calificaciones
Control Interno - J. Schuster (1992)
76 páginas
Cálculo de Costo Objetivo en Productos Nuevos
Aún no hay calificaciones
Cálculo de Costo Objetivo en Productos Nuevos
7 páginas
Problemas en la Fijación de Objetivos
Aún no hay calificaciones
Problemas en la Fijación de Objetivos
12 páginas
Mate Fin
Aún no hay calificaciones
Mate Fin
624 páginas
Globalización PDF
Aún no hay calificaciones
Globalización PDF
6 páginas
096B Silabo Taller de Tesis 2021 Ii Percy Peña Medina
100% (1)
096B Silabo Taller de Tesis 2021 Ii Percy Peña Medina
6 páginas
Cap 5 y 10 Contabilidad Costos Tradiciones e Innovaciones
Aún no hay calificaciones
Cap 5 y 10 Contabilidad Costos Tradiciones e Innovaciones
130 páginas
Presentación Iae-Etapa 3
Aún no hay calificaciones
Presentación Iae-Etapa 3
19 páginas
Tesis Inteligencia de Negocio (Carlos Barahona) 1-2020 PDF
Aún no hay calificaciones
Tesis Inteligencia de Negocio (Carlos Barahona) 1-2020 PDF
89 páginas
Aqp S 6 7 8 Herramientas de Calidad Pasos para La Mejora de Procesos - Lean
Aún no hay calificaciones
Aqp S 6 7 8 Herramientas de Calidad Pasos para La Mejora de Procesos - Lean
95 páginas
Presupuesto 1
Aún no hay calificaciones
Presupuesto 1
11 páginas
2017 1 Simulacion Semana 9 Te 5
Aún no hay calificaciones
2017 1 Simulacion Semana 9 Te 5
110 páginas
Reconocimiento Título UTN en Tecnología
Aún no hay calificaciones
Reconocimiento Título UTN en Tecnología
8 páginas
Resolución Técnica #16 PDF
Aún no hay calificaciones
Resolución Técnica #16 PDF
13 páginas
Contabilidad General Teorico - Rosendorff
Aún no hay calificaciones
Contabilidad General Teorico - Rosendorff
122 páginas
Conociendo La Contabilidad - Miguel Telese-1-96
Aún no hay calificaciones
Conociendo La Contabilidad - Miguel Telese-1-96
96 páginas
El Control de Gestión y El Gobierno Corporativo
Aún no hay calificaciones
El Control de Gestión y El Gobierno Corporativo
5 páginas
Objeto Material y Formal de Estudio de La Contabilidad
Aún no hay calificaciones
Objeto Material y Formal de Estudio de La Contabilidad
8 páginas
Nuevos enfoques en la administración moderna
Aún no hay calificaciones
Nuevos enfoques en la administración moderna
84 páginas
Adler - Cap. 3 - Estrategia de Operaciones
Aún no hay calificaciones
Adler - Cap. 3 - Estrategia de Operaciones
15 páginas
Servicios Del Sistema Operativo
Aún no hay calificaciones
Servicios Del Sistema Operativo
3 páginas
Monitor Tarjeta de Video Hdmi y Vga 2º Monografia Oficial
100% (1)
Monitor Tarjeta de Video Hdmi y Vga 2º Monografia Oficial
59 páginas
Comercialización JP Baldomar 2025
Aún no hay calificaciones
Comercialización JP Baldomar 2025
32 páginas
Análisis de Normas Contables Argentinas
Aún no hay calificaciones
Análisis de Normas Contables Argentinas
61 páginas
PDF Transformacion Digital DL
Aún no hay calificaciones
PDF Transformacion Digital DL
8 páginas
Gestión y Costos, Gimenez
Aún no hay calificaciones
Gestión y Costos, Gimenez
180 páginas
GILLI, CHAHIN - Sistemas Administrativos-Capítulo 4
100% (1)
GILLI, CHAHIN - Sistemas Administrativos-Capítulo 4
23 páginas
Códigos JavaScript para Laberintos
Aún no hay calificaciones
Códigos JavaScript para Laberintos
7 páginas
Control de Inventarios en MYPES para Rentabilidad
100% (1)
Control de Inventarios en MYPES para Rentabilidad
20 páginas
Coteo ABC: Fundamentos y Metodología
Aún no hay calificaciones
Coteo ABC: Fundamentos y Metodología
43 páginas
Mejora del Marketing Digital en ECOMÁS
Aún no hay calificaciones
Mejora del Marketing Digital en ECOMÁS
151 páginas
CAQP 3 - Administracion Enfoque Por Competencias Con Casos Latinoamericanos by Francisco Mochon Morcillo Z-Liborg
Aún no hay calificaciones
CAQP 3 - Administracion Enfoque Por Competencias Con Casos Latinoamericanos by Francisco Mochon Morcillo Z-Liborg
38 páginas
Costos II: Guía Completa de Gestión
Aún no hay calificaciones
Costos II: Guía Completa de Gestión
236 páginas
Descripción de Operaciones Típicas de Una Empresa - ALBERTO DIAZ
0% (1)
Descripción de Operaciones Típicas de Una Empresa - ALBERTO DIAZ
46 páginas
Herramientas Informaticas-Modulo I
Aún no hay calificaciones
Herramientas Informaticas-Modulo I
58 páginas
Navarro Cinthia CAP6 SO1
100% (1)
Navarro Cinthia CAP6 SO1
6 páginas
Sistemas Administrativos - Tecnicas y Aplicaciones - Gilli RESUMEN
Aún no hay calificaciones
Sistemas Administrativos - Tecnicas y Aplicaciones - Gilli RESUMEN
6 páginas
Trabajo-Informatica Final
Aún no hay calificaciones
Trabajo-Informatica Final
21 páginas
La Cadena de Valor y La Ventaja Competitiva
Aún no hay calificaciones
La Cadena de Valor y La Ventaja Competitiva
28 páginas
pdf24-CONTABILIDAD BASICA - FOWLER NEWTON CAP 1 y 2
Aún no hay calificaciones
pdf24-CONTABILIDAD BASICA - FOWLER NEWTON CAP 1 y 2
37 páginas
Sinergia en Sistemas Empresariales
Aún no hay calificaciones
Sinergia en Sistemas Empresariales
3 páginas
Supply Chain of CineColombia
Aún no hay calificaciones
Supply Chain of CineColombia
3 páginas
Ciencias Del Comportamiento
Aún no hay calificaciones
Ciencias Del Comportamiento
4 páginas
Concepto Contabilidad
Aún no hay calificaciones
Concepto Contabilidad
13 páginas
Trabajo de Auditoria Estratégica.
100% (1)
Trabajo de Auditoria Estratégica.
18 páginas
001 Introduccion A Las Arquitecturas Paralelas - 2024.Ppt (Modo de Compatibilidad)
Aún no hay calificaciones
001 Introduccion A Las Arquitecturas Paralelas - 2024.Ppt (Modo de Compatibilidad)
64 páginas
Introducción a Arquitecturas Paralelas
Aún no hay calificaciones
Introducción a Arquitecturas Paralelas
11 páginas
Computacion Paralela
100% (1)
Computacion Paralela
45 páginas
Introducción a Computación Paralela
Aún no hay calificaciones
Introducción a Computación Paralela
47 páginas
PDF Resize
Aún no hay calificaciones
PDF Resize
76 páginas
Introducción al Perceptrón
Aún no hay calificaciones
Introducción al Perceptrón
46 páginas
Documento 6
Aún no hay calificaciones
Documento 6
5 páginas
Udenar 1 Presentación Lenguajes Formales y Autómatas 2025
Aún no hay calificaciones
Udenar 1 Presentación Lenguajes Formales y Autómatas 2025
10 páginas
Eventos Java: Guía para Desarrolladores
Aún no hay calificaciones
Eventos Java: Guía para Desarrolladores
4 páginas
Diagrama de Flujo
Aún no hay calificaciones
Diagrama de Flujo
10 páginas
Tipos de Datos y Dominios en SQL
Aún no hay calificaciones
Tipos de Datos y Dominios en SQL
2 páginas
JF 3 1 Esp
Aún no hay calificaciones
JF 3 1 Esp
30 páginas
Pregunta 2 - Laboratorio FP
Aún no hay calificaciones
Pregunta 2 - Laboratorio FP
3 páginas
Definición de Variables en Algoritmos
Aún no hay calificaciones
Definición de Variables en Algoritmos
34 páginas
Guia Practica Lab
Aún no hay calificaciones
Guia Practica Lab
37 páginas
Trabajo 3 (APR53-X)
Aún no hay calificaciones
Trabajo 3 (APR53-X)
2 páginas
Introducción a QBasic y Java
Aún no hay calificaciones
Introducción a QBasic y Java
11 páginas
Unidad 2 - Tarea 3 - Aritmética Del Computador y Las Arquitecturas Computacionales - Hailyen Jullieth Grajalaes Quiñonez
Aún no hay calificaciones
Unidad 2 - Tarea 3 - Aritmética Del Computador y Las Arquitecturas Computacionales - Hailyen Jullieth Grajalaes Quiñonez
10 páginas
Validador de Cadenas con Expresiones Regulares
Aún no hay calificaciones
Validador de Cadenas con Expresiones Regulares
8 páginas
Historia de los Lenguajes de Programación
Aún no hay calificaciones
Historia de los Lenguajes de Programación
5 páginas
Ejercicio de Solución Empresarial Actividad 4
100% (1)
Ejercicio de Solución Empresarial Actividad 4
5 páginas
Sap Abap
Aún no hay calificaciones
Sap Abap
2 páginas
UTP 9 Clase - Transformada Rápida de Fourier. Aplicaciones y Algoritmos de La FFT
Aún no hay calificaciones
UTP 9 Clase - Transformada Rápida de Fourier. Aplicaciones y Algoritmos de La FFT
17 páginas
03-Procedimientos Almacenados Con Parámetros de Salida
Aún no hay calificaciones
03-Procedimientos Almacenados Con Parámetros de Salida
2 páginas
Mecanismos
Aún no hay calificaciones
Mecanismos
11 páginas
Estructura de Datos - Ing. en Sistemas Computacionales (Proyectos A Desarrollar)
Aún no hay calificaciones
Estructura de Datos - Ing. en Sistemas Computacionales (Proyectos A Desarrollar)
14 páginas
API de Gestión de Efectivo (Ce - Bank - Pub) en Oracle Apps r12 - Compartir Conocimientos de Oracle Apps
Aún no hay calificaciones
API de Gestión de Efectivo (Ce - Bank - Pub) en Oracle Apps r12 - Compartir Conocimientos de Oracle Apps
4 páginas
Compiladores e Intérpretes: Guía Básica
Aún no hay calificaciones
Compiladores e Intérpretes: Guía Básica
30 páginas
Ud1-Introduccion Acceso A Datos
Aún no hay calificaciones
Ud1-Introduccion Acceso A Datos
18 páginas
Guía de Redacción y Textos Expositivos
Aún no hay calificaciones
Guía de Redacción y Textos Expositivos
28 páginas
Arlow Cap 1
Aún no hay calificaciones
Arlow Cap 1
12 páginas
Carrito JSP
50% (2)
Carrito JSP
47 páginas
4.1 Secuenciacion de Trabajos y Programacion de Operaciones
Aún no hay calificaciones
4.1 Secuenciacion de Trabajos y Programacion de Operaciones
5 páginas
4PC Monografia Grupo 6
Aún no hay calificaciones
4PC Monografia Grupo 6
13 páginas
Consultas Basicas SQL en MYSQL
Aún no hay calificaciones
Consultas Basicas SQL en MYSQL
31 páginas

Procesamiento y Arquitecturas Paralelas

Cargado por

Procesamiento y Arquitecturas Paralelas

Cargado por

Introducción a las

Principal objetivo: Aumento del RENDIMIENTO. Aumento de la capacidad

La eficiencia se mejora cuando:

• se logra un balance de carga entre procesadores: igual

• Se minimiza la interacción entre tareas:

Características de un sistema paralelo:

• Cantidad y potencia de los elementos de proceso

• Tipo y Tamaño de la memoria

• Forma de comunicación entre los elementos de proceso

• Escalabilidad del sistema

• Recursos de potencia requeridos

• Trabajo: Dos programas distintos pueden ejecutarse en paralelo

Arquitectura característica y estructura de cada procesador del

Íntimamente ligado con la funcionalidad

Arreglos sistólicos homogéneos complejidad baja

La arquitectura de conexionado debe ajustarse lo mejor

Sistemas medios: de 100 a 1000 procesadores

Sistemas chicos: hasta 100 procesadores

Nivel de tarea Multicomputadoras Pasaje de mensajes

GRANULARIDAD GRADO DE MODO DE

• Diseño y automatización de proyectos de ingeniería

• Exploración petrolera y minera

• Cine: efectos visuales, animación 3D

• Mega bases de datos (google, youtube, rapidshare)

reloj CPU: 100 veces mas rápido

PIII 1,3 GHz

100 MHz 486 DX33

• Un aumento de la velocidad de reloj es proporcional a λ=1/d

Hasta cuanto puede disminuir d??

Voltaje 1.8-2.5 1.5-1.8 1.2-1.5 1.2-1.5 0.9-1.2 0.6-0.9 0.5-0.6

Nº transistores 11M 21M 40M 76M 200M 520M 1.4B

DRAM bits/chip 167M 1.07G 1.7G 4.29G 17.2G 68.7G 275G

1 Gflop/s Procesadores tc IPC>1 P

• Instrucciones por segundo

Promedio entre el tiempo de

Sp : Speedup con P procesadores

Promedio entre el número total de

Rp > 1 O1 : Número de operaciones en

Número de operaciones totales

Debido al overhead el tiempo total de ejecución de las

TN,P = ts + N/P . (t + to)

SN,p N/(1 + (ts + to)/t) P/(1 + to/t)

EN,p 0 1/(1 + to/t)

• La primera columna muestra que el speedup resultante de

• La segunda columna muestra que un Speedup igual a la

Pipeline PLP TLP DLP ILP

Locked Multi core Coarse grain Short vector Superescalar

Clasificados de acuerdo al modelo de Flynn

La CPU controla todas las operaciones que se realizan en la máquina

datos parciales y direcciones.

Unidad funcional 1 A[1]=2*A[0] A[2]=2*A[1] A[3]=2*A[2] A[4]=2*A[3] A[5]=2*A[4]

Unidad funcional 1 A[1]=2*A[1] A[k+1]=2*A[k+1] A[2k+1]=2*A[2k+1] A[3k+1]=2*A[3k+1] A[n]=2*A[n]

Unidad funcional 2 A[2]=2*A[2] A[k+2]=2*A[k+2] A[2k+2]=2*A[2k+2] A[3k+2]=2*A[3k+2] idle

Arquitecturas desacopladas y los arreglos sistólicos

Salida or and mod Entrada

• Es la mejor estrategia de diseño orientada a obtener el más alto

• Idea general: conectar varios procesadores para obtener un

• La filosofía de trabajo plantea la división de un problema en

int prom (int x, int y) Procesador

COARSE GRAIN: En coarse grain multi-threading los threads son desalojados

FINE GRAIN: En fine grain multi-threading el thread en ejecución es cambiado

SMT: Simultaneous multi-threading es similar a fine grain, pero permite ejecutar

• Implementado con rutas de datos divisibles

• Por ejemplo: una ruta de 64 bits permite realizar 1 operación de 64 bits;

• Vector processors: la ruta de datos se multiplexa en tiempo entre los

Si bien todas se basan en la paralelización de instrucciones para su ejecución

unidad unidad unidad

• Las operaciones se almacenan en un buffer a la espera de los datos para operar

• Hay una unidad de emisión que unidad unidad unidad

La arquitectura se compone básicamente de unidades funcionales, buses y registros.

TTA es similar a VLIW pero con mayor control sobre el hardware.

add r3, r1, r2

También podría gustarte

Unidad funcional 1 A[1]=2A[0] A[2]=2A[1] A[3]=2A[2] A[4]=2A[3] A[5]=2*A[4]

Unidad funcional 1 A[1]=2A[1] A[k+1]=2A[k+1] A[2k+1]=2A[2k+1] A[3k+1]=2A[3k+1] A[n]=2*A[n]

Unidad funcional 2 A[2]=2A[2] A[k+2]=2A[k+2] A[2k+2]=2A[2k+2] A[3k+2]=2A[3k+2] idle