0% encontró este documento útil (0 votos)

1K vistas58 páginas

Puertos y Registros en Procesadores Superescalares

Este documento contiene cuatro problemas y sus soluciones relacionados con procesadores superescalares. El primer problema explica que un procesador superescalar que puede emitir 2 instrucciones por ciclo necesitaría al menos 6 puertos (4 de lectura y 2 de escritura) en el banco de registros. El segundo problema calcula el número de bits necesarios en las estaciones de reserva para diferentes configuraciones. El tercer problema analiza el orden de emisión de instrucciones para diferentes configuraciones de ventana de instrucciones. Y el cuarto problema explica cómo evol

Cargado por

Adrian Oriel

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOC, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

1K vistas58 páginas

Puertos y Registros en Procesadores Superescalares

Cargado por

Adrian Oriel

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOC, PDF, TXT o lee en línea desde Scribd

Capítulo 3: Superescalares

1 (Ejercicios de clase)
Suponiendo que en cada ciclo sólo se puede hacer una lectura/escritura de/en los registros, indique
el número mínimo de puertos de lectura y escritura que harían falta en el banco de registros de un
procesador superescalar capaz de ejecutar hasta dos instrucciones por ciclo.

Solución.
Si se pueden emitir 2 instrucciones por ciclo, y como cada instrucción tiene dos operandos, se
necesitarían cuatro lecturas. Es decir, haría falta cuatro puertos de lectura en el banco de registros o
en el búfer de reordenamiento

Si se pueden retirar 2 instrucciones por ciclo, como cada instrucción podría tener que escribir un
resultado, se necesitarían dos puertos de escritura.

Por tanto haría falta que los bancos de registros tuvieran 6 puertos como mínimo (cuatro de lectura
y dos de escritura)

2 (Ejercicios de clase)
Indique el número de bits de las líneas de las estaciones de reserva en un procesador superescalar en
el que cada unidad funcional tiene una estación de reserva propia, y que implementa una
arquitectura con 64 instrucciones de dos operandos, tamaño de palabra de 32 bits, banco de 32
registros, y búfer de reordenamiento de 32 registros suponiendo:

a) Que los operandos se captan durante la emisión de la instrucción.

b) Que los operandos se captan en el envío a la unidad de ejecución.

¿Y si cada estación de reserva estuviese compartida por cuatro unidades funcionales que ejecutan
operaciónes de distinto código de operación?.

Solución.
En la tabla, se muestran las respuestas para la cuestión (a) y (b).

op1 ok1 op2 ok2 dest

(a) 32 1 32 1 5
(b) 5 1 5 1 5

La opción (a) precisa de 71 bits mientras que la opción (b) sólo

necesita 17.
Si cada estación de reserva está compartida por cuatro unidades
funcionales habría que añadir 2 bits más en cada caso (para codificar
la unidad a la que hay que enviar la operación). Se tendrían 73 y 19
bits respectivamente.
3 (Ejercicios de clase)
Para el fragmento de código siguiente:

1 lw r1,0x1ac
2 lw r2,0xc1f
3 add r3,r0,r0
4 mul r4,r2,r1
5 add r3,r3,r4
6 add r5,r0,0x1ac
7 add r6,r0,0xc1f
8 sub r5,r5,#4
9 sub r6,r6,#4
10 sw (r5),r3
11 sw (r6),r4

y suponiendo que se pueden captar cuatro instrucciones por ciclo y emitir cuatro instrucciones por
ciclo, indique el orden en que se emitirán las instrucciones para cada uno de los siguientes casos:

a) Una ventana de instrucciones centralizada con emisión ordenada y alineada

b) Una ventana de instrucciones centralizada con emisión desordenada y alineada
c) Una estación de reserva de tres líneas para cada unidad funcional, con envío ordenado y
ventana deslizante.

Nota: considere que hay una unidad funcional para la carga (2 ciclos), otra para el almacenamiento
(1 ciclo), tres para la suma/resta(1 ciclo), y una para la multiplicación (6 ciclos).

Solución.
En las tablas se muestra la evolución de las instrucciones en cada etapa y situación.

P1.a Ventana Centralizada. Emisión alineada y ordenada

Instrucción Inst # IF ID ISS/EX Comentarios

lw r1,0x1ac (1) 1 2 3-4
lw r2,0xc1f (2) 1 2 5-6 Colisión con (1) por uso de
Load

add r3,r0,r0 (3) 1 2 5

mul r4,r2,r1 (4) 1 2 7 - 12 Necesita r2, r1 proporcionadas
por (1) y (2)

add r3,r3,r4 (5) 2 7 13 Entran en la ventana cuando se

vacía (alineada), Necesita r4

add r5,r0,0x1ac (6) 2 7 13

add r6,r0,0xc1f (7) 2 7 13
sub r5,r5,#4 (8) 2 7 14 Necesita r5 para poder
ejecutarse

sub r6,r6,#4 (9) 3 14 15 Entran en la ventana cuando se

vacia (alineada)

sw (r5),r3 (10) 3 14 15 Necesita r5 (y r3)

sw (r6),r4 (11) 3 14 16 Necesita r6 (y r4)

Ordenada

En el caso de la emisión alineada, hasta que no se han emitido todas las instrucciones que entraron
en la ventana al decodificarse no se introducen nuevas instrucciones en la ventana que puedan ser
emitidas. Esta situación se puede observar en la columna ID, donde se indica el ciclo en el que las
instrucciones se terminarían de decodificar y pasarían a la ventana de instrucciones (cuando ésta se
ha quedado vacía).
P1.b Ventana Centralizada. Emisión alineada y desordenada

Instrucción Inst # IF ID ISS/EX Comentarios

lw r1,0x1ac (1) 1 2 3-4
lw r2,0xc1f (2) 1 2 5-6 Colisión con (1) por uso de
Load

add r3,r0,r0 (3) 1 2 3 Se adelanta el envío

mul r4,r2,r1 (4) 1 2 7 - 12 Necesita r2, r1 proporcionadas

por (1) y (2)

add r3,r3,r4 (5) 2 7 13 Entran en la ventana cuando se

vacía (alineada), Necesita r4

add r5,r0,0x1ac (6) 2 7 8 Se adelanta el envío

add r6,r0,0xc1f (7) 2 7 8 Se adelanta el envío

sub r5,r5,#4 (8) 2 7 9 Necesita r5 para poder

ejecutarse

sub r6,r6,#4 (9) 3 13 14 Entran en la ventana cuando se

vacia (alineada)

sw (r5),r3 (10) 3 13 14 Necesita r5 (y r3)

sw (r6),r4 (11) 3 13 15 Necesita r6 (y r4)

Emisión Desordenada

P1.c Emisión a Estaciones de Reserva (RS) y envío ordenado

Instrucción Inst # IF ID/ISS DISP/EX Comentarios
lw r1,0x1ac (1) 1 2 3-4 RS(LD)

lw r2,0xc1f (2) 1 2 5-6 Colisión con (1) por uso de

Load RS(LD)

add r3,r0,r0 (3) 1 2 3 Se adelanta el envío RS1(ADD)

mul r4,r2,r1 (4) 1 2 7 - 12 Necesita r2, r1 proporcionadas

por (1) y (2) RS(MUL)

add r3,r3,r4 (5) 2 3 13 Entran en la ventana cuando se

vacía (alineada), Necesita r4
RS2(ADD)

add r5,r0,0x1ac (6) 2 3 4 Se adelanta el envío RS3(ADD)

add r6,r0,0xc1f (7) 2 3 4 Se adelanta el envío RS1(ADD)

sub r5,r5,#4 (8) 2 3 5 Necesita r5 para poder

ejecutarse RS3(ADD)

sub r6,r6,#4 (9) 3 4 5 Entran en la ventana cuando se

vacia (alineada) RS1(ADD)

sw (r5),r3 (10) 3 4 14 Necesita r5 (y r3) RS(ST)

sw (r6),r4 (11) 3 4 15 Necesita r6 (y r4) RS(ST)

En negrita la estación de reserva donde se emite la instrucción (ISS)

En el caso se utilizar estaciones de reserva, las instrucciones se emiten desde el decodificador

(columna ID/ISS) a cada estación de reserva. Desde ahí se envían a las correspondientes unidades
funcionales. Se ha supuesto que la emisión a las estaciones de reserva se hace de forma que se
distribuyen las instrucciones entre todas las unidades del mismo tipo, para minimizar las colisiones
y los tiempos de espera en la correspondiente estación.

4 (Ejercicios de clase)
En un procesador superescalar con renombrado de registros en el que se utilizan registros
específicos para implementar el renombrado, y acceso indexado a esos registros a través de una
tabla de mapeo. Indique como evolucionarían los registros de renombrado al ejecutar las
instrucciones:

1 mul r2,r0,r1
2 add r3,r1,r2
3 sub r2,r0,r1

Solución.
En las figuras siguientes se muestra como evolucionarían los búferes de renombrado.
Reg Entrada Índice Valor Válido
Válida Buffer
0 1 2
1 1 4 10 1
2 1 6
3 15 1

mul r2,r0,r1
Se pueden leer r0 y r1 que se han asignado a los bufferes 2 y 4.
El valor de r2 se asigna al registro 6 y se indica como no válido
(hasta que no esté el resultado)

Reg Entrada Índice Valor Válido

Válida Buffer
0 1 2
1 1 4 10 1
2 1 6
3 1 5 15 1
0
0

add r3,r1,r2
Como r2 no está disponible, se indica que el operando de add
correspondiente a r2 se toma del registro 6.
A r3 se le asigna el registro 5, que se indica como no válido
hasta que no se genere el resultado

Reg Entrada Índice Valor Válido

Válida Buffer
0 1 2
1 1 4 10 1
2 1 7
3 1 5 15 1
0
0

sub r2,r0,r1 0

Como r0 y r1 están disponibles puede iniciarse la operación,

pero r2 se asigna a otro registro.
Con las otras dos instrucciones anteriores no hay problema: la
multiplicación pondrá el resultado en el registro 6 que será de
donde lo tome la suma.
Queda como último valor para r2, el contenido del registro de
renombrado número 7.

5 (Ejercicios de clase)
Suponga que las cuatro instrucciones siguientes

multd f3,f1,f2 ; f3= f1*f2 (ciclo 3)

addd f2,f3,f1 ; f2=f3+f1 (ciclo 4)
subd f3,f3,f1 ; f3=f3 - f1 (ciclo 5)
addd f5,f1,f2 ; f5=f1+f2 (ciclo 5)

se introducen una tras otra (en los ciclos indicados entre paréntesis) en un búfer de renombrado con
acceso asociativo. Indique (a) cómo evoluciona el búfer de renombrado (registros del búfer de
renombrado que se van asignando, los registros de donde tomarían los datos y donde escribirían los
resultados las instrucciones, etc.) para esas instrucciones; (b) en qué momento empieza y termina la
ejecución de las instrucciones; y (c) cuáles son los valores que quedan en los registros de la
arquitectura al terminar, si inicialmente f1=2.0 y f2=3.0.
(NOTA: la multiplicación tarda 6 ciclos, y la suma y la resta 2 ciclos, y hay suficientes unidades
funcionales como para que no afecten los riesgos estructurales)

Solución.
(a) A continuación se muestra la evolución del búfer de renombrado con acceso asociativo

(Ciclo 3)
# Entrada Registro Valor Valor Válido Bit de
Valida Último
0 1 f1 2.0 1 1
1 1 f2 3.0 1 1
2 1 f3 0 1

Se inicia la multiplicación en el ciclo 4, puesto que tiene los valores disponibles. Terminará en el
ciclo 9 (dura 6 ciclos).

En el búfer de renombrado se observa que el registro 2 asignado a f3 no tiene un valor válido y que
los tres bits de último de los registros asignados están a 1 porque son las últimas asignaciones
realizadas para f1, f2, y f3.

(Ciclo 4)
# Entrada Registro Valor Valor Válido Bit de
Valida Último
0 1 f1 2.0 1 1
1 1 f2 3.0 1 0
2 1 f3 0 1
3 1 f2 0 1

Como se hace una asignación nueva a f2, el bit de último del registro r1 se hace 0, indicando que si
una instrucción posterior necesitase tomar el valor de f2 lo debe tomar del registro 3. El bit de Valor
Válido del nuevo registro asignado debe estar a 0. La operación de suma de addd f2,f3,f1 no puede
ejecutarse antes del ciclo 10 (cuando termina la multiplicación), y tomará el valor de f3 del registro
2 del búfer de renombrado. Termina en el ciclo 11, y el resultado se escribirá en el registro 3 del
búfer.

(Ciclo 5)
# Entrada Registro Valor Valor Válido Bit de
Valida Último
0 1 f1 2.0 1 1
1 1 f2 3.0 1 0
2 1 f3 0 0
3 1 f2 0 1
4 1 f3 0 1
5 1 f5 0 1

Se asigna el registro 4 a f3, por lo que el bit de último del registro 2 del búfer se pone a 0. También
se asigna el registro 5 del búfer a f5.

La instrucción subd f3,f3,f1 tomará el valor de f1 del registro1 del búfer (su valor es 2.0) y tomará
el valor de f3 que necesita del registro 2 del búfer. Esta operación empezará a ejecutarse en el ciclo
10 y terminará en el ciclo 11 escribiendo el resultado en el registro 4.

La instrucción addd f5,f1,f2 tomará el valor de f1 del registro1 del búfer (su valor es 2.0) y tomará
el valor de f2 que necesita del registro 3 del búfer. Esta operación empezará a ejecutarse en el ciclo
12 y terminará en el ciclo 13.

(b) Las instrucciones empiezan a ejecutarse según se indica en la siguiente tabla, donde se indican
también los resultados que obtienen.

Instrucción Empieza Termina Resultado

multd f3,f1,f2 4 9 2.0*3.0=6.0
addd f2,f3,f1 10 11 6.0+2.0=8.0
subd f3,f3,f1 10 11 6.0-2.0=4.0
addd f5,f1,f2 12 13 2.0+8.0=10.0

(c) A partir de los resultados que se muestran en la última columna de la tabla anterior se tiene que
al final, los valores de los registros son:

f1=2.0, f2=8.0, f3=4.0, f5=10.0.

6 (Examen diciembre 2005)

Suponga que las cinco instrucciones siguientes

(1) multd f3, f1 ,f2 ; f3 = f1 * f2 (ciclo 3)

(2) addd f2, f3, f1 ; f2 = f3 + f1 (ciclo 4)
(3) subd f3, f3, f1 ; f3 = f3 – f1 (ciclo 4)
(4) multd f5, f1, f4 ; f5 = f1 + f4 (ciclo 5)
(5) addd f6, f2, f3 ; f6 = f2 * f3 (ciclo 6)

se introducen una tras otra (en los ciclos indicados entre paréntesis) en un búfer de renombrado con
acceso asociativo. Indique (a) cómo evoluciona el búfer de renombrado para esas instrucciones
(registros del búfer de renombrado que se van asignando, los registros de donde tomarían los datos
y donde escribirían los resultados las instrucciones, etc.); (b) en qué momento empieza y termina la
ejecución de las instrucciones suponiendo que en el procesador hay una unidad de multiplicación y
otra de suma/resta, y se utiliza emisión desordenada; y (c) indique el número más pequeño de
unidades de multiplicación y de suma/resta que habría que añadir para minimizar el tiempo de
ejecución de las instrucciones.

(NOTA: la unidad de multiplicación tarda 5 ciclos, y la de suma/resta 2 ciclos, y cada unidad

dispone de una estación de reserva con espacio suficiente para tres instrucciones)

Solución.
Suponemos que inicialmente el búfer de renombrado está vacío y que el primer renombrado se
produce en el ciclo 3, tal y como dice el enunciado. También suponemos que todos los valores con
los que se va a operar están preparados en el banco de registros del computador, de forma que sólo
tendremos en cuanta las dependencias entre las 5 instrucciones del problema.

En el ciclo 3 se introduciría en el búfer de renombrado la instrucción (1), que tomaría sus operandos
del banco de registros y podría pasar a ejecutarse. El búfer de renombrado quedaría así:

# Ent. Válida Reg. Destino Valor Ok Ultimo

1 1 f3 0 1

En el ciclo 4 se introducirían en el búfer de renombrado las instrucciones (2) y (3). Como ambas
operan con los mismos operandos, las dos tomarían el operando f1 del banco de registros y
marcarían al segundo operando en la estación de reserva como pendiente y esperando a que se
calcule y se almacene en la entrada 1 del búfer de renombrado. Como la instrucción (3) vuelve a
escribir en f3, se marca como último el renombrado de la entrada 3 del búfer de renombrado. El
búfer de renombrado quedaría así:

# Ent. Válida Reg. Destino Valor Ok Ultimo

1 1 f3 0 0
2 1 f2 0 1
3 1 f3 0 1

En el ciclo 5 se introduciría en el búfer de renombrado la instrucción (4), que tiene sus dos
operandos disponibles en el banco de registros, con lo que se renombraría al registro f5 en la
siguiente entrada del búfer de renombrado y podría pasar a ejecutarse. El búfer de renombrado
quedaría así:

# Ent. Válida Reg. Destino Valor Ok Ultimo

1 1 f3 0 0
2 1 f2 0 1
3 1 f3 0 1
4 1 f5 0 1

En el ciclo 6, se introduciría en el búfer de renombrado la última instrucción, que depende de los

operandos f2 y f3 que están pendientes y que se tomarán de las entradas del búfer de renombrado 2
y 3 respectivamente cuando estén disponibles. Esta instrucción provoca el renombrado del registro
f6, quedando el búfer de renombrado así:

# Ent. Válida Reg. Destino Valor Ok Ultimo

1 1 f3 0 0
2 1 f2 0 1
3 1 f3 0 1
4 1 f5 0 1
5 1 f6 0 1

Las instrucciones escribirían sus resultados en los campos Valor de sus entradas del búfer de
renombrado. En el momento de escribir el valor, se cambiaría el campo ok de 0 a 1 y cualquier
instrucción que estuviera esperando el dato escrito podría pasar a ejecutarse. Teniendo en cuanta las
dependencias de datos, las latencias de las unidades de ejecución, y que solamente hay un sumador
y un multiplicador, las escrituras se realizarían en la etapa FIN del cauce, en el siguiente orden:

3 4 5 6 7 8 9 10 11 12 13 14 15
(1) ID/ISS EX FIN
(2) ID/ISS EX FIN
(3) ID/ISS EX FIN
(4) ID/ISS EX FIN
(5) ID/ISS EX FIN

Aumentando el número de sumadores y de multiplicadores a 2, eliminamos todos los riesgos

estructurales y conseguimos que los únicos atascos en el cauce se deban a dependencias entre datos,
lo que nos ahorra dos ciclos en la ejecución del programa.
3 4 5 6 7 8 9 10 11 12 13
(1) ID/ISS EX FIN
(2) ID/ISS EX FIN
(3) ID/ISS EX FIN
(4) ID/ISS EX FIN
(5) ID/ISS EX FIN

7 (Ejercicios de clase)
Suponga que las cuatro instrucciones siguientes

multd f3,f1,f2 ; f3= f1*f2 (ciclo 2)

addd f2,f3,f1 ; f2=f3+f1 (ciclo 2)
subd f3,f3,f1 ; f3=f3-f1 (ciclo 3)
addd f4,f1,f2 ; f4=f1+f2 (ciclo 3)

se han decodificado en los ciclos indicados entre paréntesis, introduciéndose en una estación de
reserva común para todas las unidades funcionales de coma flotante. Teniendo en cuenta que el
procesador superescalar dispone de un ROB para implementar la finalización ordenada, y que la
emisión es desordenada y no alineada. Indique (a) cómo evolucionaría el ROB para esas
instrucciones; (b) en qué momento empieza y termina la ejecución de las instrucciones; y (c) cuáles
son los valores que quedan en los registros de la arquitectura al terminar, si inicialmente f1=3.0 y
f2=2.0.

(NOTA: la multiplicación tarda 4 ciclos, y la suma y la resta 2 ciclos; hay tantas unidades
funcionales como sea necesario para que no haya riesgos estructurales; y se pueden enviar, retirar,
etc. dos instrucciones por ciclo como máximo)

Solución.

Para resolver el problema se parte de la tabla siguiente, donde se indican los ciclos en los que (1) las
instrucciones se terminan de decodificar (ID) y han pasado a la estación de reserva, (2) comienza y
termina la ejecución de la operación correspondiente a la instrucción (EX), (3) el resultado de
operación se ha almacenado en el ROB, y (4) el momento en que después de retirar la instrucción
del ROB, los resultados se han almacenado en el banco de registros de la arquitectura:

Instrucción ID EX ROB WB
1 multd f3,f1,f2 2 3-6 7 8
2 addd f2,f3,f1 2 7-8 9 10
3 subd f3,f3,f1 3 7-8 9 10
4 addd f4,f1,f2 3 9 - 10 11 12

La tabla anterior constituye la respuesta al apartado (b) del problema. Las instrucciones segunda y
tercera deben esperar que termine la ejecución de la primera, y la cuarta instrucción espera que
termine la segunda. A partir de esta tabla también se puede determinar la evolución del ROB.

(b) El ROB empieza a llenarse al final del ciclo 2, después de haberse decodificado las dos primeras
instrucciones.

(Final de 2)
# Instrucción Reg.Dest. Valor OK Unidad Flush
0 1 f3 - 0 - 0
1 2 f2 - 0 - 0

Al finalizar el tercer ciclo se introducen en el ROB las dos instrucciones restantes, y también habrá
empezado la multiplicación.

(Final de 3)
# Instrucción Reg.Dest. Valor OK Unidad Flush
0 1 f3 - 0 mult 0
1 2 f2 - 0 - 0
2 3 f3 - 0 - 0
3 4 f4 - 0 - 0

Hasta el final del ciclo 7 no ocurre nada en el ROB (en relación con las instrucciones que indica el
problema). Como se muestra a continuación, se habrá terminado la multiplcación, y el resultado
estará almacenado en el campo de valor del registro 0 del búfer, el bit de OK estará a 1, y también
se ha iniciado la ejecución de las instrucciones 2, y 3. En el siguiente ciclo (ciclo 8) se retirará la
instrucción 1 del ROB.

(Final de 7)
# Instrucción Reg.Dest. Valor OK Unidad Flush
0 1 f3 6.0 1 Mult 0
1 2 f2 - 0 Add 0
2 3 f3 - 0 Sub 0
3 4 f4 - 0 - 0

Al final del ciclo 9 la instrucción 1 ya no está en el ROB, habrá terminado la ejecución de las
instrucciones 2 y 3 y sus resultados estarán almacenador en los registros 2 y 3 el ROB, y habrá
empezado la ejecución de la instrucción 4.

(Final de 9)
# Instrucción Reg.Dest. Valor OK Unidad Flush
1 2 f2 9.0 1 Add 0
2 3 f3 3.0 1 Sub 0
3 4 f4 - 0 Add 0

Al final del ciclo siguiente se habrán retirado las instrucciones 2 y 3 y se escribirán sus resultados
en los registros f2 y f3.

(Final de 10)
# Instrucción Reg.Dest. Valor OK Unidad Flush
3 4 f4 - 0 Add 0

Al finalizar el siguiente ciclo, el resultado de la instrucción 4 se habrá almacenado en el registro 3

del ROB.

(Final de 11)
# Instrucción Reg.Dest. Valor OK Unidad Flush
3 4 f4 12.0 1 Add 0

En el siguiente ciclo (ciclo 12) se retirará la instrucción y se escribirá el resultado en f1.

(c) Teniendo en cuenta la evolución del ROB (el orden en que se han retirado las instrucciones y se
almacenan los resultados en el banco de registros) y las operaciones realizadas, los registros quedan
al final con los valores:

f1=3.0, f2= 9.0, f3=3.0, f4=12.0

8 (Benchmark diciembre 2003)

Suponga que las cinco instrucciones siguientes se introducen una tras otra (en los ciclos indicados
entre paréntesis) en un búfer de reordenamiento (ROB) y en una ventana de instrucciones (estación
de reserva centralizada): (a) ¿En qué momento empieza y termina la ejecución de cada instrucción?
(b) ¿En qué instantes se van retirando las instrucciones? (c) ¿Qué valores quedan en los registros si
f1=3.0 y f2=2.0?

addd f3,f1,f2 ; f3=f1+f2 (ciclo 3)

addd f2,f3,f2 ; f2=f3+f2 (ciclo 3)
multd f4,f3,f2 ; f4=f3*f2 (ciclo 3)
subd f5,f2,f1 ; f5=f2-f1 (ciclo 4)
addd f2,f3,f1 ; f2=f3+f1 (ciclo 4)

(NOTA: La multiplicación tarda 6 ciclos; la suma y la resta 2 ciclos; se retiran dos instrucciones por
ciclo como máximo; y el envío es desordenado y no alineado pudiéndose enviar dos instrucciones
por ciclo como máximo)

9 (Benchmark diciembre 2003)

Se dispone de un procesador superescalar con la siguiente configuración:

 una estación de reserva RS1 para las sumas y restas,

 una estación de reserva RS2 para las multiplicaciones y divisiones,
 un búfer de reordenamiento ROB,
 dos unidades de ejecución de sumas/restas con una latencia de 2 ciclos,
 una unidad de ejecución de multiplicaciones con una latencia de 5 ciclos,
 una unidad de ejecución de divisiones con una latencia de 40 ciclos

El procesador es capaz de emitir dos instrucciones por ciclo, las estaciones de reserva pueden
realizar envíos no alineados y desordenados a las unidades de ejecución, y se pueden retirar hasta
dos instrucciones por ciclo.

Si en la cola de instrucciones se encuentran las siguientes instrucciones:

addd f3, f1, f2 ; f3 = f1 + f2

addd f2, f3, f2 ; f2 = f3 + f2
multd f4, f3, f2 ; f4 = f3 * f2
divd f5, f2, f1 ; f5 = f2 / f1
subd f2, f3, f1 ; f2 = f3 - f1

y los registros f1 y f2 tienen inicialmente los valores 10 y 5, ¿qué valores y en qué ciclos se
escribirá en los registros de la arquitectura?

Solución.
El esquema del cauce del procesador propuesto en el problema es el siguiente:
ADD/
DISP SUB 1
RS1

ADD/
ISS DISP SUB 2

COLA F
CACHE I INSTR. I
F N
ISS DISP MUL

ISS RS2

DISP DIV

ROB

RET

REGS

En el enunciado se nos dice que las instrucciones ya están en la cola de instrucciones y que e
procesador es capaz de emitir y retirar dos instrucciones por ciclo, así que asumiendo que nos
encontramos en el ciclo 1 vamos a ir emitiendo las instrucciones tal y como se muestra en la
siguiente tabla.

Instrucción ID/ISS DISP/EX FIN RET Comentario

addd f3, f1, f2 (1) 1 2–3 4 5 f3 ← 15 en el ciclo 5
addd f2, f3, f2 (2) 1 4–5 6 7 f2 ← 20 en el ciclo 7, RAW con (1)
multd f4, f3, f2 (3) 2 6 – 10 11 12 f4 ← 300 en el ciclo 12, RAWs con (1) y (2)
divd f5, f2, f1 (4) 2 6 – 45 46 47 f5 ← 2 en el ciclo 47, RAW con (2)
subd f2, f3, f1 (5) 3 4–5 6 47 f2 ← 5 en el ciclo 47, RAW con (1)

 La instrucción (1) se emite a la estación de reserva RS1 en el ciclo 1 y puede enviarse al

sumador 1 al siguiente ciclo (ciclo 2) de su emisión, ya que sus operandos f1 y f2 están
disponibles en la estación de reserva RS1 en el momento de su emisión. Tras los dos ciclos
que tarda una suma, la instrucción finaliza en el ciclo 4 y se almacena el resultado en el
ROB y en las estaciones de reserva que necesiten el nuevo valor de f3. Al ciclo siguiente
(ciclo 5) se retirará del ROB almacenando en el registro f3 el valor 15.

 La instrucción (2) también se emite en el ciclo 1 a RS1, pero como tiene una dependencia
RAW con la instrucción (1) en f3, debe esperar a que f3 se haya calculado en el ciclo 4 para
poder ejecutarse. En cuanto tiene disponible f3 (ciclo 4) pasa a ejecutarse al sumador 1 y
finaliza en el ciclo 6 (los sumadores tienen una latencia de 2 ciclos). En el siguiente ciclo
(ciclo 7) se retirará del ROB y almacenará en el registro f2 el valor 20.

 La instrucción (3) se emite en el ciclo 2 a la estación de reserva RS2, ya que las dos
primeras se emitieron en el ciclo 1 y solo se pueden emitir dos instrucciones por ciclo. Esta
instrucción no podrá ejecutarse hasta el ciclo 6, ya que tiene dependencias RAW con las
instrucciones (1) y (2) en los registros f3 y f2 respectivamente, y finalizará en el ciclo 11
porque el multiplicador tiene una latencia de 5 ciclos. En el ciclo 12 se retirará del ROB
escribiendo en el registro f4 el valor 300.

 La instrucción (4) se emite también a RS2 en el ciclo 2 pero no podrá ejecutarse hasta el
ciclo 6 debido a la dependencia RAW con las instrucción (2) en f2. Como las divisiones
tienen una latencia de 40 ciclos, esta instrucción estará ejecutándose desde el ciclo 6 hasta el
45. En el ciclo 46 escribirá el resultado en el ROB y en el ciclo 47 se retirará escribiendo
en el registro f5 el valor 2.

 La instrucción (5) se emitirá en el ciclo 3 a RS1, ya que las dos anteriores se emitieron en
el ciclo anterior, y en el ciclo 4, como ya tiene disponible el valor de f3 que produce la
instrucción (1), podrá pasar a ejecutarse a uno de los sumadores. En el ciclo 6 finalizará y
almacenará el resultado en el ROB, pero no podrá retirarse hasta el ciclo 47, que es cuando
se retira la instrucción (4), ya que la retirada debe ser ordenada, así que como pueden
retirarse dos instrucciones por ciclo, en el ciclo 47 se retirará y escribirá en el registro f2
el valor 5.

10 (Ejercicios de clase)
Considere que el fragmento de código siguiente:

1 lw r3,0x10a
2 addi r2,r0,#128
3 add r1,r0,0x0a
4 lw r4,0(r1)
5 lw r5,-8(r1)
6 mult r6,r5,r3
7 add r5,r6,r3
8 add r6,r4,r3
9 sw 0(r1),r6
10 sw -8(r1),r5
11 sub r2,r2,#16

se ejecuta en un procesador superescalar que es capaz de captar 4 instrucciones/ciclo, de

decodificar 2 instrucciones/ciclo, de emitir (utilizando una ventana de instrucciones con emisión no
alineada) 2 instrucciones/ciclo, escribir hasta 2 resultados/ciclo en los registros correspondientes
(registros de reordenamiento, o registros de la arquitectura según el caso), y completar (o retirar)
hasta 2 instrucciones/ciclo.

Indique el número de ciclos que tardaría en ejecutarse el programa suponiendo:

a) Emisión ordenada y ejecución desordenada

b) Emisión desordenada y ejecución desordenada

(Nota: Considere que tiene una unidad funcional de carga (2), una de almacenamiento(1), tres
unidades de suma/resta(1), y una de multiplicación (6)- y que no hay limitaciones para el número de
líneas de la cola de instrucciones, ventana de instrucciones, búfer de reordenamiento, puertos de
lectura/escritura etc.).

Solución.
La forma en que las instrucciones van pasando por las distintas etapas del cauce se muestra en las
tablas que se proporcionan a continuación. En las tablas también se marcan las dependencias RAW
que existen entre las instrucciones.

En la emisión ordenada (Tabla P2.a) los instantes en los que las instrucciones empiezan a ejecutarse
(columna EX) deben estar ordenados de menor a mayor, a diferencia de lo que ocurre en la emisión
desordenada (Tabla P2.b)

Dado que el procesador utiliza un búfer de reordenamiento (ROB), la finalización del

procesamiento de las instrucciones es ordenada y por ello, en la columna WB los tiempos (momento
en que se retiran las instrucciones del ROB y se escriben en los registros de la arquitectura) deben
estar ordenados (en ambas tablas).

Otro aspecto que debe tenerse en cuenta es que en las columnas ID, EX, ROB, y WB no deben
existir más de dos instantes de tiempo iguales ya que se decodifican, emiten, escriben en el ROB, o
retiran, dos instrucciones por ciclo como máximo. Por ello, por ejemplo, la instrucción (11) en la
tabla P2.b se termina (escribe el resultado en el ROB) en el ciclo 10, y no en el 9.

P2.a Emisión Ordenada / Finalización Ordenada (Ejecución Desordenada)

Intrucción Inst# IF ID EX ROB WB Comentarios

lw r3,0x10a (1) 1 2 3 5 6 Sólo se pueden retirar dos
instrucciones por ciclo
addi r2,r0,#128 (2) 1 2 3 4 6 Termina antes que la (1) pero
se retira al mismo tiempo
add r1,r0,0x0a (3) 1 3 4 5 7
lw r4,0(r1) (4) 1 3 5 7 8
lw r5,-8(r1) (5) 2 4 7 9 10 Se inicia cuando termine (4)
por colisión en el load
mult r6,r5,r3 (6) 2 4 9 15 16
add r5,r6,r3 (7) 2 5 15 16 17
add r6,r4,r3 (8) 2 5 15 16 17
sw 0(r1),r6 (9) 3 6 16 18
sw –8(r1),r5 (10) 3 6 17 19 Hay colisión en la unidad
Store (se podría lanzar antes)
sub r2,r2,#16 (11) 3 7 17 18 19

Ordenado
P2.b Emisión Desordenada / Finalización Ordenada

Intrucción Inst# IF ID EX ROB WB Comentarios

lw r3,0x10a (1) 1 2 3 5 6 Sólo se pueden retirar dos
instrucciones por ciclo
addi r2,r0,#128 (2) 1 2 3 4 6 Termina antes que la (1) pero
se retira al mismo tiempo
add r1,r0,0x0a (3) 1 3 4 5 7
lw r4,0(r1) (4) 1 3 5 7 8
lw r5,-8(r1) (5) 2 4 7 9 10 Se inicia cuando termine (4)
por colisión en el load
mult r6,r5,r3 (6) 2 4 9 15 16
add r5,r6,r3 (7) 2 5 15 16 17
add r6,r4,r3 (8) 2 5 7 8 17
sw 0(r1),r6 (9) 3 6 8 18
sw –8(r1),r5 (10) 3 6 16 18 No hay colisión en el Store

sub r2,r2,#16 (11) 3 7 8 10 19 Sólo se retiran del ROB 2

intrucciones por ciclo

Desordenado Ordenado

A partir de las tablas correspondientes a cada situación se comprueba que el tiempo que tarda la
secuencia de instrucciones es el mismo tanto para la emisión ordenada como para la desordenada.
Esto se debe, fundamentalmente, a las dependencias existentes entre las instrucciones,
concretamente entre la multiplicación (6) y el almacenamiento (10) y al tiempo de la multiplicación,
que hace que se tenga que retrasar la instrucción de almacenamiento (6). De hecho, si se
considerase que las instrucciones finalizan cuando terminan (no deben esperar en el ROB a que les
toque el turno para ser retiradas), para el caso (a) se tendrían 19 ciclos, y para el (b) 18 ciclos (se
supone que la instrucción (11) ha escrito sus resultados en el ciclo 11).

11 (Ejercicios de clase)
En el problema anterior, (a) indique qué mejoras realizaría en el procesador para reducir el tiempo
de ejecución en la mejor de las opciones sin cambiar el diseño de las unidades funcionales
(multiplicador, sumador, etc.) y sin cambiar el tipo de memorias ni la interfaz entre procesador y
memoria (no varía el número de instrucciones captadas por ciclo. (b) ¿Qué pasaría si se reduce el
tiempo de multiplicación a la mitad?

Solución.
P3.a Instrucciones decodificadas por ciclo (4) y retiradas por ciclo (3);
Unidades de acceso a memoria (2); no hay límite en la emisión
Intrucción Inst# IF ID EX ROB WB Comentarios
lw r3,0x10a (1) 1 2 3 5 6 Se pueden retirar tres
instrucciones por ciclo
addi r2,r0,#128 (2) 1 2 3 4 6 Termina antes que la (1) pero
se retira al mismo tiempo
add r1,r0,0x0a (3) 1 2 3 4 6 Se pueden emitir más de 2
instrucciones/ciclo
lw r4,0(r1) (4) 1 2 4 6 7
lw r5,-8(r1) (5) 2 3 4 6 7 No hay colisión en el load

mult r6,r5,r3 (6) 2 3 6 12 13

add r5,r6,r3 (7) 2 3 12 13 14
add r6,r4,r3 (8) 2 3 6 7 14
sw 0(r1),r6 (9) 3 4 7 14
sw –8(r1),r5 (10) 3 4 13 15 No hay colisión en el Store

sub r2,r2,#16 (11) 3 4 5 6 15 Comienza una vez

decodificada

Desordenado Ordenado

P3.b Instrucciones decodificadas por ciclo (4) y retiradas por ciclo (3);
Unidades de acceso a memoria (2); no hay límite en la emisión
Intrucción Inst# IF ID EX ROB WB Comentarios
lw r3,0x10a (1) 1 2 3 5 6 Se pueden retirar tres
instrucciones por ciclo
addi r2,r0,#128 (2) 1 2 3 4 6 Termina antes que la (1) pero
se retira al mismo tiempo
add r1,r0,0x0a (3) 1 2 3 4 6 Se pueden emitir más de 2
instrucciones/ciclo
lw r4,0(r1) (4) 1 2 4 6 7
lw r5,-8(r1) (5) 2 3 4 6 7 No hay colisión en el load

mult r6,r5,r3 (6) 2 3 6 9 10 Se reduce a la mitad mult

add r5,r6,r3 (7) 2 3 9 10 11

add r6,r4,r3 (8) 2 3 6 7 11
sw 0(r1),r6 (9) 3 4 7 11
sw –8(r1),r5 (10) 3 4 10 12 No hay colisión en el Store

sub r2,r2,#16 (11) 3 4 5 6 12 Comienza una vez

decodificada

Desordenado Ordenado

En las Tablas P3.a y P3.b se muestra la forma en que las instrucciones pasan por el cauce
superescalar para las cuestiones (a) y (b) planteadas en el problema.

Para resolver la cuestión (a), inicialmente se considera que se decodifica el mismo número de
instrucciones que se capta, ya que no existen limitaciones impuestas por las instrucciones al ritmo
de decodificación (éste viene determinado por las posibilidades de los circuitos de descodificación y
la capacidad para almacenar las instrucciones decodificadas hasta que se emitan). También se
considera que no existen limitaciones para el número de instrucciones por ciclo que se emiten,
escriben el ROB, y se retiran. Por último, se consideran que están disponibles todas las unidades
funcionales que se necesiten para que no haya colisiones (riesgos estructurales).

Una vez encontrada la distribución temporal de las instrucciones en las distintas etapas, tal y como
se muestra en la Tabla P3.a, se observa que, las mejoras necesarias (sin modificar los tiempos de
procesamiento de las unidades funcionales) para reducir el tiempo al mínimo que permiten las
dependencias RAW entre las instrucciones han sido: decodificar 4 instrucciones por ciclo, emitir,
escribir en el ROB, y retirar hasta tres instrucciones por ciclo, y añadir una unidad de carga de
memoria más.

En la Tabla 3.b se muestra la distribución temporal de instrucciones en etapas cuando, además de

las mejoras anteriores, se reduce el tiempo de la multiplicación a tres ciclos (la mitad de lo que
duraba antes). Como se puede comprobar, esa reducción de tres ciclos también se observa en el
tiempo final de la secuencia de instrucciones. Se pone así de manifiesto, que el tiempo de la
multiplicación es uno de los determinantes fundamentales de las prestaciones.

Si se tiene en cuenta que la secuencia consta de 11 instrucciones, que el tiempo mínimo que tarda la
primera instrucción en salir son 6 ciclos (lo tomamos como tiempo de latencia de inicio del cauce),
y que el tiempo total de ejecución en este caso es de 12 ciclos, se puede escribir:

12 = 6 + (11 – 1) * (Ciclos por Instrucción)

con lo que, si se despeja, se tiene que el procesador superescalar presenta una media de 0.6 ciclos
por instrucción, o lo que es lo mismo, ejecuta 1.67 (1/0.6) instrucciones por ciclo.

12 (Ejercicios de clase)
En el caso descrito en el problema 2, suponga que se utiliza un búfer de reordenamiento para
permitir la ejecución desordenada y la finalización ordenada. Indique cómo evolucionaría dicho
búfer de reordenamiento en el mejor de los casos.

Solución.
A continuación se muestra la evolución del búfer de reordenamiento (ROB) del procesador
superescalar descrito en el problema 2. Entre los dos casos que se plantean en el problema indicado
se considerado el caso de emisión desordenada.

Se muestra el estado del ROB al final del ciclo indicado. En el ROB que se ha utilizado se considera
que existe espacio para almacenar los resultados de las instrucciones correspondientes y, por tanto,
implementa también el renombrado de registros.

Al final del ciclo 2 se han introducido las instrucciones (1) y (2) que escribirán sus resultados en r3
y r2, respectivamente (no tienen valores válidos en el ROB, y por ello sus bits de ok están a 0). Al
final del ciclo 3, se han introducido las instrucciones (3) y (4) y se han emitido las instrucciones (1)
y (2). Por eso se escribe la unidad en la que se están ejecutando en la columna Unidad (última
columna) del ROB).
Ciclo 2

# Inst. Codop Reg.Dst Dato OK Unidad

1 1 lw r3 - 0

2 2 addi r2 - 0

Ciclo 3

# Inst. Codop Reg.Dst Dato OK Unidad

1 1 lw r3 - 0 load

2 2 addi r2 - 0 add

3 3 add r1 - 0

4 4 lw r4 - 0

Al final del ciclo 4 han entrado en el ROB las instrucciones (5) y (6), se ha terminado la instrucción
(2), y por eso su bit OK está a 1, y se ha emitido la instrucción 3.

Ciclo 4

# Inst. Codop Reg.Dst Dato OK Unidad

1 1 lw r3 - 0 load

2 2 addi r2 128 1 add

3 3 add r1 - 0 add

4 4 lw r4 - 0

5 5 lw r5 - 0

6 6 mult r6 - 0

Al final del ciclo 5 se han introducido las instrucciones 7 y 8, y se han terminado de ejecutar las
instrucciones (1) y (3). También se ha emitido la instrucción 4.
Ciclo 5

# Inst. Codop Reg.Dst Dato OK Unidad

1 1 lw r3 [0x10a] 1 load

2 2 addi r2 128 1 add

3 3 add r1 0x0a 1 add

4 4 lw r4 - 0 load

5 5 lw r5 - 0

6 6 mult r6 - 0

7 7 add r5 - 0

8 8 add r6 - 0
Al terminar el ciclo 6 se habrán retirado las instrucciones (1) y (2). La instrucción (3) no se puede
retirar ya que como máximo se pueden retirar dos instrucciones por ciclo (condiciones del problema
2). También se han introducido las instrucciones (9) y (10) en el ROB.

Ciclo 6

# Inst. Codop Reg.Dst Dato OK Unidad

3 3 add r1 0x0a 1 add
4 4 lw r4 - 0 load
5 5 lw r5 - 0
6 6 mult r6 - 0
7 7 add r5 - 0
8 8 add r6 - 0
9 9 sw - - 0
10 10 sw - - 0

Al final del ciclo 7 se habrá introducido la instrucción (11) en el ROB y se habrá retirado la
instrucción (3). La instrucción (4) ha terminado su ejecución, y se han emitido las instrucciones (5)
y (8).

Ciclo 7

# Inst. Codop Reg.Dst Dato OK Unidad

4 4 lw r4 [0(r1)] 1 load
5 5 lw r5 - 0 load
6 6 mult r6 - 0
7 7 add r5 - 0
8 8 add r6 - 0 add
9 9 sw - - 0
10 10 sw - - 0
11 11 sub r2 - 0

Al final del ciclo 8 se ha retirado la instrucción (4), se ha terminado la ejecución de la (8) y se ha

emitido la instrucción (11).
Ciclo 8

# Inst. Codop Reg.Dst Dato OK Unidad

5 5 lw r5 - 0 load
6 6 mult r6 - 0
7 7 add r5 - 0
8 8 add r6 r4 + r3 1 add
9 9 sw - - 0
10 10 sw - - 0
11 11 sub r2 - 0 add

Al final del ciclo 9 se ha terminado la ejecución de la instrucción (5), y de la (9). También se ha

emitido la intrucción de multiplicación (6).

Ciclo 9

# Inst. Codop Reg.Dst Dato OK Unidad

5 5 lw r5 [-8(r1)] 1 load
6 6 mult r6 - 0 mult
7 7 add r5 - 0
8 8 add r6 r4 + r3 1 add
9 9 sw - - 1 st
10 10 sw - - 0
11 11 sub r2 - 0 add

Al final del ciclo 10 se habrá terminado la ejecución de la instrucción (11) y se ha retirado la

instrucción (5).
Ciclo 10

# Inst. Codop Reg.Dst Dato OK Unidad

6 6 mult r6 - 0 mult
7 7 add r5 - 0
8 8 add r6 r4 + r3 1 add
9 9 sw - - 1 st
10 10 sw - - 0
11 11 sub r2 112 1 add

Desde el ciclo 10 al ciclo 15, el ROB no sufre ningún cambio (se supone que no hay más
instrucciones que se van introduciendo en el mismo). Al final del ciclo 15 ha terminado la
multiplicación, y se ha emitido la instrucción (7), que dependía de ella.
Ciclo 15

# Inst. Codop Reg.Dst Dato OK Unidad

6 6 mult r6 r5 * r3 1 mult
7 7 add r5 - 0 add
8 8 add r6 r4 + r3 1 add
9 9 sw - - 1 st
10 10 sw - - 0
11 11 sub r2 112 1 add

Al final del ciclo 16 se habrá retirado la instrucción (6) de multiplicación, termina la ejecución de la
(7), y se emite la instrucción (10), que termina en el ciclo siguiente. Así, finalmente, al finalizar el
ciclo 17 se habrán retirado las instrucciones (7) y (8), al final del 18, la (9) y la (10), y al finalizar el
ciclo 19 se habrá retirado la instrucción (11) y habrá concluido el procesamiento de la secuencia de
instrucciones.

Ciclo 16

# Inst. Codop Reg.Dst Dato OK Unidad

7 7 add r5 r6+r3 1 add
17
8 8 add r6 r4 + r3 1 add
9 9 sw - - 1 st
18
10 10 sw - - 0 st
11 11 sub r2 112 1 add 19

Termina en 17
Ciclos en los
que salen

13 (Ejercicios de clase)
Considere que el fragmento de código siguiente:

subd f2,f2,f1 ; f2 = f2-f1

addd f4,f2,f3 ; f4 = f2+f3
subd f5,f2,f3 ; f5 = f2-f3
multd f6,f2,f3 ; f6 = f2*f3
subd f2, f2,f5 ; f2 = f2-f5
subd f7,f4,f6 ; f7 = f4-f6

se ejecuta en un procesador superescalar capaz de captar, decodificar y emitir (mediante una

ventana de instrucciones centralizada) 3 instrucciones/ciclo, y completar (o retirar) hasta 2
instrucciones/ciclo.

 Si el procesador dispone de un búfer de reordenamiento para permitir la ejecución

desordenada y la finalización ordenada, indique el tiempo de ejecución en el caso de
emisión ordenada (no alineada). ¿Se gana tiempo si la emisión es desordenada (y no
alineada)?
 Para la situación más favorable, ¿qué es mejor aumentar en uno el número unidades de
suma/resta o reducir el tiempo de ejecución de las existentes en una unidad?
 Considerando que f1=2.0, f2=4.0, y f3=5.0 indique cuales serán los valores finales que
tendrán los registros de la arquitectura al final de la ejecución de la secuencia.

Nota: El procesador dispone de 2 unidades de suma/resta (de 2 ciclos), una de multiplicación (de 4
ciclos), y que no hay limitaciones en el número de líneas de la cola de instrucciones, búfer de
reordenamiento, puertos de lectura/escritura, etc.

Solución.
La distribución de etapas del procesador superescalar descrito se muestra en la figura siguiente,
donde no se han representado las estructuras de almacenamiento entre etapas (colas, búferes, etc.).

Suma/Resta

IF ID ROB WB
Suma/Resta
3 ins/ciclo 3 ins/ciclo 2 ins/ciclo

3 ins/ciclo
Multiplicación

(a) En la Tabla siguiente se muestra la evolución temporal del conjunto de instrucciones indicado
para emisión ordenada (no alineada).

Instrucción IF ID EX ROB WB
(1) subd f2,f2,f1 1 2 3-4 5 6
(2) addd f4,f2,f3 1 2 5-6 7 8
(3) subd f5,f2,f3 1 2 5-6 7 8
(4) multd f6,f2,f3 2 3 5-8 9 10
(5) subd f2,f2,f5 2 3 7-8 9 10
(6) subd f7,f4,f6 2 3 9 - 10 11 12

Las instrucciones 2, 3, y 4 han de esperar a que termine de ejecutarse la instrucción 1 para disponer
de su operando f2. La instrucción 5 también tiene que esperar al operando f2, pero como también
necesita f5 que es producida por la instrucción 3 no puede esperar hasta que hasta que ha terminado
ésta. Por otra parte, tampoco podría enviarse dado que no se puede enviar más de tres instrucciones
por ciclo, y se envían las instrucciones 2, 3, y 4 en el ciclo 5. Por otra parte, la instrucción 6 debe
esperar que termine la 4, dado que necesita f6 (también necesita f4, pero la instrucción 2 que lo
produce termina su ejecución antes que la instrucción 4).

Si la emisión es desordenada no se ganaría nada para las instrucciones indicadas ya que lo que
limita su emisión son las dependencias RAW entre ellas. Ninguna instrucción posterior a la
instrucción 1 se puede lanzarse antes del ciclo 5 (la instrucción 1 produce f2 que necesitan las
instrucciones 2, 3, 4, y 5). La instrucción 5 no se puede lanzar antes del ciclo 7 ya que necesita el
valor de f5 que produce la instrucción 3. La instrucción 6 no puede lanzarse antes del ciclo 9 dado
que necesita el valor de f6, que se tiene en el ciclo 8, obtenido por la instrucción 4.

(b) En la figura siguiente se muestra un esquema del uso de los recursos del procesador.

Ciclo 1 2 3 4 5 6 7 8 9 10 11 12
Suma/Resta 1 1 2 2 5 5
1
Suma/Resta 3 3 6 6
1
Producto 4 4 4 4

En ningún momento se retrasa la emisión de una instrucción porque estén ocupadas todas las
unidades funcionales (suma/resta y multiplicación), son las dependencias RAW las que determinan
los tiempos de espera de las instrucciones. Por lo tanto, añadir más unidades funcionales al cauce no
va a afectar al tiempo de ejecución.

Si se reduce el tiempo de las unidades funcionales en un ciclo, la distribución temporal de

instrucciones en las etapas del cauce sería (da igual que la emisión sea emisión ordenada o
desordenada porque lo que sigue determinando los tiempos de espera son las dependencias RAW):

Instrucción IF ID EX ROB WB
(1) subd f2,f2,f1 1 2 3 4 5
(2) addd f4,f2,f3 1 2 4 5 6
(3) subd f5,f2,f3 1 2 4 5 6
(4) multd f6,f2,f3 2 3 4–6 7 8
(5) subd f2,f2,f5 2 3 5 6 8
(6) subd f7,f4,f6 2 3 7 8 9

Por lo tanto, el diseño de unidades funcionales más rápidas es la mejor opción para este trozo de
código.

14 (Examen septiembre 2004)

Indique las dependencias entre las instrucciones, los ciclos en los que se emiten para su ejecución y
cómo evolucionaría en búfer de reordenamiento hasta que se hayan retirado todas las instrucciones
de la siguiente secuencia almacenada en la cola de instrucciones captadas:

multd f1, f1, f5 ; f1 = f1 * f5

addd f2, f2, f5 ; f2 = f2 + f5
addd f4, f1, f2 ; f4 = f1 + f2
addd f6, f1, f5 ; f6 = f1 + f5
multd f5, f2, f2 ; f5 = f2 * f2
subd f6, f2, f1 ; f6 = f2 – f1
Suponiendo una frecuencia de 2 GHz, ¿cuánto tarda en procesarse la secuencia de instrucciones?
¿Cuál es la velocidad pico del procesador?

Nota: La suma y la resta consumen 1 ciclo de reloj y la multiplicación tres ciclos. Considere que no
hay limitaciones en la capacidad de los búferes ni en el número de unidades funcionales. Se supone
que f1, f2 y f5 tienen valores previos.

 La instrucción 3 depende de f1 producido por la instrucción 1 y f2 producido por la

instrucción 2.
 La instrucción 4 depende de f1 producido por la instrucción 1.
 La instrucción 5 depende de f2 producido por la instrucción 2.
 La instrucción 6 depende de f1 producido por la instrucción 1 y f2 producido por la
instrucción 2.

Teniendo en cuenta estas dependencias, las instrucciones se ejecutarían como se muestra en la

siguiente figura:

Instrucción / Ciclo 1 2 3 4 5 6 7 8
(1) multd f1, f1, f5 ID ISS EX EX EX WB
(2) addd f2, f2, f5 ID ISS EX WB
(3) addd f4, f1, f2 ID ISS EX WB
(4) addd f6, f1, f5 ID ISS EX WB
(5) multd f5, f2, f2 ID ISS EX EX EX WB
(6) subd f6, f1, f2 ID ISS EX WB

A continuación pasamos a describir la evolución del búfer de reordenamiento:

Ciclo 1: # Cod. Op. Dest. Result. Ok

 Se decodifican las instrucciones 1 y 2 1 multd f1 ? 0
y se introducen en el ROB 2 addd f2 ? 0

# Cod. Op. Dest. Result. Ok

Ciclo 2: 1 multd f1 ? 0
 Se decodifican las instrucciones 3 y 4 2 addd f2 ? 0
y se introducen en el ROB 3 addd f4 ? 0
4 addd f6 ? 0

# Cod. Op. Dest. Result. Ok

1 multd f1 ? 0
Ciclo 3:
2 addd f2 f2+f5 1
 Finaliza la instrucción 2
3 addd f4 ? 0
 Se decodifican las instrucciones 5 y 6
4 addd f6 ? 0
y se introducen en el ROB
5 multd f5 ? 0
6 subd f6 ? 0

# Cod. Op. Dest. Result. Ok

1 multd f1 f1*f5 1
2 addd f2 f2+f5 1
Ciclo 5:
3 addd f4 ? 0
 Finaliza la instrucción 1
4 addd f6 ? 0
5 multd f5 ? 0
6 subd f6 ? 0
# Cod. Op. Dest. Result. Ok
Ciclo 6: 3 addd f4 f1+f2 1
 Se retiran las instrucciones 1 y 2 4 addd f6 f1+f5 1
 Finalizan las instrucciones 3, 4 y 6 5 multd f5 ? 0
6 subd f6 f1–f2 1

Ciclo 7: # Cod. Op. Dest. Result. Ok

 Se retiran las instrucciones 3 y 4 5 multd f5 f2*f2 1
 Finaliza la instrucción 5 6 subd f6 f1–f2 1
Ciclo 8:
# Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones 5 y 6

Si el procesador funciona a 2 GHz, el tiempo de procesamiento sería

8 ciclos * 5×10–10 s/ciclo = 4×10–9 s = 4 ns

Para la calcular la velocidad pico, como sólo se pueden retirar dos instrucciones por ciclo,
suponiendo que no hubiera atascos en el cauce se podrían ejecutar 2 instrucciones por ciclo

2 instr./ciclo * 2×109 ciclos/s = 4 GIPS

15 (Examen febrero 2005)

Suponga un procesador superescalar en que se captan cuatro instrucciones por ciclo, se decodifican
tres instrucciones por ciclo, se emiten tres instrucciones por ciclo como máximo, y se retiran hasta
tres instrucciones por ciclo. La emisión y la ejecución son desordenadas, y las instrucciones, una
vez decodificadas, se introducen en un búfer de reordenamiento (ROB) que permite la finalización
ordenada del procesamiento de las instrucciones.
Indique las dependencias entre instrucciones y cómo evolucionaría el búfer de reordenamiento hasta
que se hayan retirado todas las instrucciones de la secuencia:

addd f1, f1 ,f4 ; f1 = f1 + f4

multd f3, f1, f2 ; f3 = f1 * f2
addd f6, f1, f4 ; f6 = f1 + f4
subd f4, f1, f6 ; f4 = f1 – f6

Suponiendo una frecuencia de 2 GHz, ¿cuánto tarda en procesarse la secuencia de instrucciones?

¿Cuál es la velocidad pico del procesador?

NOTA: La suma y la resta consumen un ciclo de reloj y la multiplicación cuatro ciclos. Considere
que no hay limitaciones en la capacidad de los búferes, y en el número de unidades funcionales. Se
supone que f1, f2, y f4 tienen valores válidos previos.

Solución.
Ya que el procesador no dispone de estaciones de reserva, la lógica de emisión tiene que esperar a
que los operandos le sean facilitados por la lógica de bypass, por tanto, las dependencias RAW
afectarán al orden de emisión de las instrucciones. En concreto, las instrucciones (2), (3) y (4)
dependen del valor de f1 producido por la instrucción (1) y la instrucción (4) depende del valor de
f6 producido por la instrucción (3)

Teniendo en cuenta estas dependencias, las instrucciones se ejecutarían como se muestra en la

siguiente figura:
Instrucción / Ciclo 1 2 3 4 5 6 7 8 9
(1) addd f1, f1, f4 IF ID/ISS EX ROB WB
(2) multd f3, f1, f2 IF ID/ISS EX EX EX EX ROB WB
(3) addd f6, f1, f4 IF ID/ISS EX ROB WB
(4) subd f4, f1, f6 IF ID/ISS EX ROB WB

A continuación pasamos a describir la evolución del búfer de reordenamiento:

# Cod. Op. Dest. Result. Ok
Ciclo 2:
1 addd f1 ? 0
 Se decodifican las instrucciones (1),
2 multd f3 ? 0
(3) y (3) y se introducen en el ROB
3 addd f6 ? 0
# Cod. Op. Dest. Result. Ok
Ciclo 3: 1 addd f1 ? 0
 Se decodifica la instrucción (4) y se 2 multd f3 ? 0
introducen en el ROB 3 addd f6 ? 0
4 subd f4 ? 0

# Cod. Op. Dest. Result. Ok

Ciclo 4: 1 addd f1 f1 + f4 1
 Finaliza la instrucción (1) y se escribe 2 multd f3 ? 0
el resultado en el ROB 3 addd f6 ? 0
4 subd f4 ? 0

Ciclo 5: # Cod. Op. Dest. Result. Ok

 Se retira la instrucción (1) del ROB 2 multd f3 ? 0
 Finaliza la instrucción (3) y se escribe 3 addd f6 f1 + f4 1
el resultado en el ROB 4 subd f4 ? 0

# Cod. Op. Dest. Result. Ok

Ciclo 6:
2 multd f3 ? 0
 Finaliza la instrucción (4) y se escribe
3 addd f6 f1 + f4 1
el resultado en el ROB
4 subd f4 f1 – f6 1

# Cod. Op. Dest. Result. Ok

Ciclo 8:
2 multd f3 f1 * f2 1
 Finaliza la instrucción (3) y se
3 addd f6 f1 + f4 1
escribe el resultado en el ROB
4 subd f4 f1 – f6 1
Ciclo 9:
 Se retiran las instrucciones (2), (3) # Cod. Op. Dest. Result. Ok
y (4)

Si el procesador funciona a 2 GHz, el tiempo de procesamiento sería

9 ciclos * 5×10–10 s/ciclo = 4,5×10–9 s = 4,5 ns

Para la calcular la velocidad pico, como sólo se pueden retirar dos instrucciones por ciclo,
suponiendo que no hubiera atascos en el cauce se podrían ejecutar 3 instrucciones por ciclo

3 instr./ciclo * 2×109 ciclos/s = 6 GIPS

16 (Examen diciembre 2007)

Suponga un procesador superescalar en el que se decodifican dos instrucciones por ciclo, se emiten
tres instrucciones por ciclo como máximo, y se retiran hasta dos instrucciones por ciclo. La emisión
es desordenada y no alineada y se realiza directamente a las unidades de ejecución, es decir, que el
procesador no dispone de estaciones de reserva. La ejecución también es desordenada, y para
permitir la finalización ordenada, se dispone de un búfer de reordenamiento (ROB) en el que se
introducen las instrucciones una vez decodificadas y del que se retiran en orden una vez que ha
finalizado.
Indique las dependencias entre las instrucciones, los ciclos en los que se emiten para su ejecución y
cómo evolucionaría en búfer de reordenamiento hasta que se hayan retirado todas las instrucciones
de la siguiente secuencia almacenada en la cola de instrucciones captadas:

multd f1, f1, f5 ; f1 = f1 * f5

addd f2, f2, f5 ; f2 = f2 + f5
divd f4, f1, f2 ; f4 = f1 / f2
addd f6, f1, f5 ; f6 = f1 + f5
multd f5, f2, f2 ; f5 = f2 * f2
subd f6, f2, f1 ; f6 = f2 – f1

Suponiendo una frecuencia de 2 GHz, ¿cuánto tarda en procesarse la secuencia de instrucciones?

¿Cuál es la velocidad pico del procesador?

Nota: La suma y la resta consumen 1 ciclo de reloj, la multiplicación tres ciclos y la división cuatro
ciclos. Considere que sólo hay un multiplicador, un divisor, y dos unidades para sumar/restar, y que
no hay limitaciones en la capacidad de los búferes. Se supone que f1, f2 y f5 tienen valores previos.

Solución.
Para estimar el tiempo de ejecución del programa, hacemos el siguiente diagrama:

Instrucción 1 2 3 4 5 6 7 8 9 10 11 12
multd f1, f1, f5 IF ID EX EX EX ROB WB
addd f2, f2, f5 IF ID EX ROB WB
divd f4, f1, f2 IF ID EX EX EX EX ROB WB
addd f6, f1, f5 IF ID EX ROB WB
multd f5, f2, f2 IF ID EX EX EX ROB WB
subd f6, f2, f1 IF ID EX ROB WB

Como muestra el diagrama anterior, la emisión de las instrucciones (2) y (3) se debe retrasar hasta que se ejecute la
instrucción (1) porque ambas instrucciones dependen del valor de f1, la emisión de la instrucción (5) se debe retrasar un
ciclo porque sólo hay un multiplicador, y la emisión de la instrucción (6) se debe retrasar un ciclo porque sólo se pueden
emitir tres instrucciones por ciclo.
A continuación se describe cómo evolucionaría el búfer de reordenamiento:

Ciclo 1: # Cod. Op. Dest. Result. Ok

 Inicialmente el ROB está vacío
Ciclo 2: # Cod. Op. Dest. Result. Ok
 Se decodifican las instrucciones (1) y (2) y se introducen 1 multd f1 ? 0
en el ROB 2 addd f2 ? 0
Ciclo 3: # Cod. Op. Dest. Result. Ok
 Se decodifican las instrucciones (3) y (4) y se introducen 1 multd f1 ? 0
en el ROB 2 addd f2 ? 0
3 divd f4 ? 0
4 addd f6 ? 0
Ciclo 4: # Cod. Op. Dest. Result. Ok
 Se decodifican las instrucciones (5) y (6) y se introducen 1 multd f1 ? 0
en el ROB 2 addd f2 f2 + f5 1
 La instrucción (2) escribe su resultado 3 divd f4 ? 0
4 addd f6 ? 0
5 multd f5 ? 0
6 subd f6 ? 0
Ciclo 6: # Cod. Op. Dest. Result. Ok
 La instrucción (1) escribe su resultado 1 multd f1 f1 * f5 1
2 addd f2 f2 + f5 1
3 divd f4 ? 0
4 addd f6 ? 0
5 multd f5 ? 0
6 subd f6 ? 0
Ciclo 7: # Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones (1) y (2) 3 divd f4 ? 0
 La instrucción (4) escribe su resultado 4 addd f6 f1 + f5 1
5 multd f5 ? 0
6 subd f6 ? 0
Ciclo 8: # Cod. Op. Dest. Result. Ok
 La instrucción (6) escribe su resultado 3 divd f4 ? 0
4 addd f6 f1 + f5 1
5 multd f5 ? 0
6 subd f6 f2 – f1 1
Ciclo 9: # Cod. Op. Dest. Result. Ok
 La instrucción (5) escribe su resultado 3 divd f4 ? 0
4 addd f6 f1 + f5 1
5 multd f5 f2 * f2 1
6 subd f6 f2 – f1 1
Ciclo 10: # Cod. Op. Dest. Result. Ok
 La instrucción (3) escribe su resultado 3 divd f4 f1 / f2 1
4 addd f6 f1 + f5 1
5 multd f5 f2 * f2 1
6 subd f6 f2 – f1 1
Ciclo 11: # Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones (3) y (4) 5 multd f5 f2 * f2 1
6 subd f6 f2 – f1 1
Ciclo 12: # Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones (5) y (6)

Suponiendo una frecuencia del procesador de 2GHz, el tiempo de ejecución de este fragmento de
código sería:

12 ciclos
T  6  10 9 s  6 ns
2  109 ciclos/s

Teniendo en cuenta que el procesador sólo puede retirar dos instrucciones por ciclo, la velocidad
pico del procesador es:

Rpico = 2 instrucciones/ciclo × 2×109 ciclos/s = 4×109 instrucciones/s = 4 GIPS

17 (Examen septiembre 2006)

Suponga un procesador superescalar en que se captan y decodifican dos instrucciones por ciclo, se
emiten tres instrucciones por ciclo como máximo (con emisión desordenada y no alineada, sin
estaciones de reserva), y se retiran hasta dos instrucciones por ciclo como máximo. La emisión y la
ejecución son desordenadas, y las instrucciones, una vez decodificadas, se introducen en un búfer
de reordenamiento (ROB) que permite la finalización ordenada del procesamiento de las
instrucciones.

Indique las dependencias entre instrucciones, los ciclos en los que se emiten las instrucciones para
su ejecución y cómo evolucionaría el búfer de reordenamiento hasta que se hayan retirado todas las
instrucciones de la siguiente secuencia de instrucciones almacenadas en la cola de instrucciones
captadas:

multd f1, f1, f2; f1 = f1 * f2

addd f3, f3, f2; f3 = f3 + f2
multd f4, f1, f3; f4 = f1 * f3
addd f5, f4, f2; f5 = f4 + f2
addd f3, f1, f3; f3 = f1 + f3
subd f5, f2, f1; f5 = f2 – f1

Suponiendo una frecuencia de 3.0 GHz, ¿cuánto tarda en procesarse la secuencia de instrucciones?
¿Cuál es la velocidad pico del procesador?

Nota: La suma y la resta consumen dos ciclos de reloj y la multiplicación cuatro ciclos. Considere
que no hay limitaciones en la capacidad de los búferes, pero sólo tiene un multiplicador y dos
sumadores/restadores. Se supone que f1, f2, y f3 tienen valores válidos previos.

Solución.
Ya que el procesador no dispone de estaciones de reserva, la lógica de emisión tiene que esperar a
que los operandos le sean facilitados por la lógica de bypass, por tanto, las dependencias RAW
afectarán al orden de emisión de las instrucciones. Por otro lado, como se pueden decodificar hasta
dos instrucciones por ciclo y emitir hasta tres, suponemos que cada una de estas tareas se realizarán
en etapas diferentes del cauce. Es decir, que la etapas serán IF para captar instrucciones, ID para
decodificarlas, ISS para emitirlas, EX para ejecutarlas, ROB para escribir los resultados en el ROB
y WB para retirar las instrucciones del cauce. Las dependencias entre instrucciones y los momentos
de emisión de las mismas se muestran en la siguiente figura:

Instrucción / Ciclo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
multd f1, f1, f2 IF ID ISS EX EX EX EX ROB WB
addd f3, f3, f2 IF ID ISS EX EX ROB WB
multd f4, f1, f3 IF ID ISS EX EX EX EX ROB WB
addd f5, f4, f2 IF ID ISS EX EX ROB WB
addd f3, f1, f3 IF ID ISS EX EX ROB WB
subd f5, f2, f1 IF ID ISS EX EX ROB WB

A continuación pasamos a describir la evolución del búfer de reordenamiento:

Ciclo 2: # Cod. Op. Dest. Result. Ok

 Se decodifican las instrucciones (1) y 1 multd f1 ? 0
(2) y se introducen en el ROB 2 addd f3 ? 0
# Cod. Op. Dest. Result. Ok
Ciclo 3: 1 multd f1 ? 0
 Se decodifican las instrucciones (3) y 2 addd f3 ? 0
(4) y se introducen en el ROB 3 multd f4 ? 0
4 addd f5 ? 0

# Cod. Op. Dest. Result. Ok

1 multd f1 ? 0
Ciclo 4: 2 addd f3 ? 0
 Se decodifican las instrucciones (5) y 3 multd f4 ? 0
(6) y se introducen en el ROB 4 addd f5 ? 0
5 addd f1 ? 0
6 subd f5 ? 0
# Cod. Op. Dest. Result. Ok
1 multd f1 ? 0
Ciclo 6: 2 addd f3 f3 + f2 1
 Finaliza la instrucción (2) y se escribe 3 multd f4 ? 0
el resultado en el ROB 4 addd f5 ? 0
5 addd f1 ? 0
6 subd f5 ? 0
# Cod. Op. Dest. Result. Ok
1 multd f1 f1 * f2 1
Ciclo 8: 2 addd f3 f3 + f2 1
 Finaliza la instrucción (1) y se escribe 3 multd f4 ? 0
el resultado en el ROB 4 addd f5 ? 0
5 addd f1 ? 0
6 subd f5 ? 0
# Cod. Op. Dest. Result. Ok
3 multd f4 ? 0
Ciclo 9:
4 addd f5 ? 0
 Se retiran las instrucciones (1) y (2)
5 addd f1 ? 0
6 subd f5 ? 0
# Cod. Op. Dest. Result. Ok
Ciclo 10:
3 multd f4 ? 0
 Finalizan las instrucciones (5) y (6)
4 addd f5 ? 0
y se escriben los resultados en el
5 addd f1 f1 + f3 1
ROB
6 subd f5 f2 – f1 1
# Cod. Op. Dest. Result. Ok
Ciclo 12: 3 multd f4 f1 * f3 1
 Finaliza la instrucción (3) y se 4 addd f5 ? 0
escribe el resultado en el ROB 5 addd f1 f1 + f3 1
6 subd f5 f2 – f1 1
# Cod. Op. Dest. Result. Ok
Ciclo 13: 4 addd f5 ? 0
 Se retira la instrucción (3) 5 addd f1 f1 + f3 1
6 subd f5 f2 – f1 1
# Cod. Op. Dest. Result. Ok
Ciclo 14:
4 addd f5 f4 + f2 1
 Finaliza la instrucción (4) y se
5 addd f1 f1 + f3 1
escribe el resultado en el ROB
6 subd f5 f2 – f1 1
Ciclo 15: # Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones (4) y (5) 6 subd f5 f2 – f1 1
Ciclo 16:
# Cod. Op. Dest. Result. Ok
 Se retira la instrucción (6)

Si el procesador funciona a 3 GHz, el tiempo de procesamiento sería

16 ciclos * 3,3×10–10 s/ciclo = 5,3×10–9 s = 5,3 ns

Para la calcular la velocidad pico, como sólo se pueden retirar dos instrucciones por ciclo,
suponiendo que no hubiera atascos en el cauce se podrían ejecutar 3 instrucciones por ciclo

2 instr./ciclo * 3×109 ciclos/s = 6 GIPS

18 (Examen septiembre 2005)

Suponga un procesador superescalar en que se decodifican dos instrucciones por ciclo, se emiten
tres instrucciones por ciclo como máximo (con emisión desordenada y no alineada, sin estaciones
de reserva), y se retiran hasta dos instrucciones por ciclo como máximo. La emisión y la ejecución
son desordenadas, y las instrucciones, una vez decodificadas, se introducen en un búfer de
reordenamiento (ROB) que permite la finalización ordenada del procesamiento de las instrucciones.

multd f1,f1,f2; f1=f1*f2

addd f3,f3,f2; f3=f3+f2
multd f4,f1,f3; f4=f1*f3
addd f6,f4,f2; f6=f4+f2
addd f3,f1,f3; f3=f1+f3
subd f6,f2,f1; f6=f2-f1

Suponiendo una frecuencia de 3.0 GHz, ¿cuánto tarda en procesarse la secuencia de instrucciones?
¿Cuál es la velocidad pico del procesador?
Nota: La suma y la resta consumen dos ciclos de reloj y la multiplicación cuatro ciclos. Considere
que no hay limitaciones en la capacidad de los búferes, pero sólo tiene un multiplicador y dos
sumadores/restadores. Se supone que f1, f2, y f3 tienen valores válidos previos.

 La instrucción 3 depende de f1 producido por la instrucción 1 y f3 producido por la

instrucción 2.
 La instrucción 4 depende de f4 producido por la instrucción 3.
 La instrucción 5 depende de f1 producido por la instrucción 1 y f3 producido por la
instrucción 2.
 La instrucción 6 depende de f1 producido por la instrucción 1.

Teniendo en cuenta estas dependencias, las instrucciones se ejecutarían como se muestra en la

siguiente figura:

Instrucción / Ciclo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(1) multd f1, f1, f2 ID ISS EX EX EX EX ROB WB
(2) addd f3, f3, f2 ID ISS EX EX ROB WB
(3) addd f4, f1, f3 ID ISS EX EX EX EX ROB WB
(4) addd f6, f4, f2 ID ISS EX EX ROB WB
(5) multd f3, f1, f3 ID ISS EX EX ROB WB
(6) subd f6, f2, f1 ID ISS EX EX ROB WB

A continuación pasamos a describir la evolución del búfer de reordenamiento:

Ciclo 1: # Cod. Op. Dest. Result. Ok

 Se decodifican las instrucciones 1 y 2 1 multd f1 ? 0
y se introducen en el ROB 2 addd f3 ? 0

# Cod. Op. Dest. Result. Ok

Ciclo 2: 1 multd f1 ? 0
 Se decodifican las instrucciones 3 y 4 2 addd f3 ? 0
y se introducen en el ROB 3 addd f4 ? 0
4 addd f6 ? 0

# Cod. Op. Dest. Result. Ok

1 multd f1 ? 0
Ciclo 3: 2 addd f3 ? 0
 Se decodifican las instrucciones 5 y 6 3 addd f4 ? 0
y se introducen en el ROB 4 addd f6 ? 0
5 multd f3 ? 0
6 subd f6 ? 0

# Cod. Op. Dest. Result. Ok

1 multd f1 ? 0
2 addd f3 f3+f2 1
Ciclo 5:
3 addd f4 ? 0
 Finaliza la instrucción 2
4 addd f6 ? 0
5 multd f3 ? 0
6 subd f6 ? 0
# Cod. Op. Dest. Result. Ok
1 multd f1 f1*f2 1
2 addd f3 f3+f2 1
Ciclo 7:
3 addd f4 ? 0
 Finaliza la instrucción 1
4 addd f6 ? 0
5 multd f3 ? 0
6 subd f6 ? 0

# Cod. Op. Dest. Result. Ok

3 addd f4 ? 0
Ciclo 8:
4 addd f6 ? 0
 Se retiran las instrucciones 1 y 2
5 multd f3 ? 0
6 subd f6 ? 0

# Cod. Op. Dest. Result. Ok

3 addd f4 ? 0
Ciclo 9:
4 addd f6 ? 0
 Finalizan las instrucciones 5 y 6
5 multd f3 f1+f3 1
6 subd f6 f2–f1 1

# Cod. Op. Dest. Result. Ok

3 addd f4 f1*f3 1
Ciclo 11:
4 addd f6 ? 0
 Finaliza la instrucción 3
5 multd f3 f1+f3 1
6 subd f6 f2–f1 1

# Cod. Op. Dest. Result. Ok

Ciclo 12: 4 addd f6 ? 0
 Se retira la instrucción 3 5 multd f3 f1+f3 1
6 subd f6 f2–f1 1
# Cod. Op. Dest. Result. Ok
Ciclo 13: 4 addd f6 f4+f2 1
 Finaliza la instrucción 4 5 multd f3 f1+f3 1
6 subd f6 f2–f1 1
Ciclo 14: # Cod. Op. Dest. Result. Ok
 Se retiran las instrucciones 4 y 5 6 subd f6 f2–f1 1
Ciclo 15:
# Cod. Op. Dest. Result. Ok
 Se retira la instrucción 6

Si el procesador funciona a 3 GHz, el tiempo de procesamiento sería

15 ciclos * 3,33×10–10 s/ciclo = 5×10–9 s = 5 ns

Para la calcular la velocidad pico, como sólo se pueden retirar dos instrucciones por ciclo,
suponiendo que no hubiera atascos en el cauce se podrían ejecutar 2 instrucciones por ciclo

2 instr./ciclo * 3×109 ciclos/s = 6 GIPS

19 (Examen febrero 2007)

Considere que el fragmento de código siguiente:

(1) lf f3, 0(r1) (7) multf f6, f6, f4

(2) lf f2, 8(r1) (8) sf 8(r2), f6
(3) addf f4, f2, f3 (9) addi r3, r2, #32
(4) sf 16(r1), f4 (10) lf f7, 0(r3)
(5) lf f5, 16(r2) (11) multf f8, f7, f3
(6) addf f6, f5, f2 (12) sf 0(r3), f8

se ejecuta en un procesador superescalar que es capaz de captar (IF), decodificar/emitir (ID/ISS) y

finalizar (WB) 4 instrucciones/ciclo. El procesador utiliza un ROB para realizar el renombramiento
y la finalización ordenada y dispone de tres estaciones de reserva de 3 líneas cada una (una para las
instrucciones de acceso a memoria, otra para las operaciones de coma flotante, y otra para las
operaciones con enteros). Las estaciones de reserva pueden enviar una instrucción por ciclo a cada
una de las unidades funcionales conectadas a ellas (la velocidad de envío depende, por tanto, del
número de unidades que estén conectadas a cada estación). El procesador permite los
adelantamientos de stores por loads no especulativos, pero no permite los especulativos.

a) Indique el número de ciclos que tardaría en ejecutarse el conjunto de instrucciones anterior

suponiendo envío desordenado desde las estaciones de reserva a las unidades funcionales.
b) ¿Y si el envío fuera ordenado desde las estaciones de reserva para operaciones con enteros y
operaciones con datos en coma flotante, pero desordenado para la estación de acceso a
memoria?

NOTA: Considere que, conectadas a la estación de reserva para el acceso a memoria, tiene una
unidad funcional de carga con un retardo de dos ciclos y una de almacenamiento con retardo de un
ciclo; conectadas a la estación de reserva para enteros tiene dos ALUs con retardo de un ciclo; y,
conectadas a la estación de reserva para coma flotante tiene una unidad de multiplicación con cinco
ciclos de retardo y dos unidades de suma con dos ciclos de retardo. No hay límite en el número de
líneas de la cola de instrucciones y del ROB).

Solución.
Suponiendo un envío desordenado para todas las estaciones de reserva, el código tardaría 28 ciclos
en ejecutarse, tal y como se muestra en el siguiente diagrama:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
(1) lf f3, 0(r1) IF ID EX EX ROB WB
(2) lf f2, 8(r1) IF ID X X EX EX ROB WB
(3) addf f4, f2, f3 IF ID EX EX ROB WB
(4) sf 16(r1), f4 IF ID EX WB
(5) lf f5, 16(r2) IF ID EX EX ROB WB
(6) addf f6, f5, f2 IF ID EX EX ROB WB
(7) multf f6, f6, f4 IF ID EX EX EX EX EX ROB WB
(8) sf 8(r2), f6 IF X X ID EX WB
(9) addi r3, r2, #32 IF X ID EX ROB WB
(10) lf f7, 0(r3) IF X X X X X ID EX EX ROB WB
(11) multf f8, f7, f3 IF X X X X X ID EX EX EX EX EX ROB WB
(12) sf 0(r3), f8 IF X X X X X X ID EX WB

En el enunciado se especifica que las cargas podrán adelantar a los almacenamientos siempre que
no sean especulativas, es decir cuando se sepa que va a acceder a direcciones de memoria
diferentes. Las instrucciones (5) y (4), acceden a memoria con el mismo desplazamiento y dos
registros índice diferentes (r2 y r1), con lo que si r2 tuviera un valor diferente al de r1, la
instrucción (5) podría adelantar a la (4). Como no sabemos los valores de estos registros, se ha
supuesto el peor caso, que es la coincidencia de r1 y r2, lo que obliga a que la instrucción (5)
tenga que esperar a la (4). Por otro lado, las instrucciones (10) y (8) acceden a posiciones de
memoria diferentes, ya que la instrucción (8) almacena en la posición 8+r2 y la instrucción (10) lee
de la posición 0+r3 = 32+r2. Como suponemos que las direcciones efectivas se calculan en el
primer ciclo de la etapa de ejecución de las instrucciones de acceso a memoria, aunque las
direcciones finales sean diferentes, este hecho no se puede comprobar por la lógica de envío de la
estación de reserva, lo que obliga a enviar primero el almacenamiento y luego la carga. Estas dos
dependencias están marcadas en el diagrama mediante flechas de color amarillo.

Las colisiones que se producen en el cauce están marcadas con el símbolo X. Estas colisiones
pueden ser bien en las estaciones de reserva o en las unidades de ejecución. Como las estaciones de
reserva tienen sólo tres entradas cada una, cuando alguna se llena no permite que se puedan emitir
más instrucciones hacia ella hasta que envíe alguna instrucción y deje algún hueco. Este fenómeno
se puede apreciar en la instrucción (8), que no puede entrar hasta que se envía la instrucción (2) y se
quedan en la estación de reserva las instrucciones (4) y (5). También se crea un cuello de botella en
la estación de reserva de acceso a memoria con la instrucción (10), que no puede emitirse hasta que
se envía la instrucción (4), y que retrasa la emisión de la instrucción (11), ya que la emisión es
ordenada. Por último, la instrucción (12) se bloqueará en la cola de instrucciones hasta que se envíe
a ejecutar la instrucción (5).

En cuanto a las colisiones en las unidades de ejecución, la instrucción (2) debe esperar a que la (1)
libere la unidad de carga, y lo mismo ocurre entre las instrucciones (11) y (7) por el multiplicador y
entre las instrucciones (10) y (5) al acceder a memoria.

Por último, los riesgos de datos adelantados por los caminos de bypass están marcados mediante
flechas negras en el diagrama.

En el caso de que el envío fuese desordenado sólo para la estación de reserva de acceso a memoria,
el resultado sería exactamente el mismo, ya que debido a los riesgos del programa, todas las
instrucciones se han enviado ordenadamente.

20 (Examen septiembre 2005)

En la ejecución de una programa una instrucción se salto condicional (salta a una dirección anterior)
genera la secuencia de saltos (S) y no saltos (N) siguiente:

SSSSN SSSSN SSNSS NSSSN NNNN

Indique la penalización que se introduce si se utiliza:

a) Predicción fija (siempre se considera que se va a producir el salto)
b) Predicción estática (si el desplazamiento es negativo se toma y si es positivo no)
c) Predicción dinámica con dos bits, inicialmente en el estado (11).

Nota: La penalización por saltos incorrectamente predichos es de 5 ciclos y para los saltos
correctamente predichos es 0 ciclos.

Solución.
En el primer caso, con predicción fija, se predecirá siempre que se va a producir el salto, por lo que
se sufrirá una penalización en aquellas ocasiones que las que no se produzca el salto. Para la
secuencia de saltos del enunciado tenemos:

Predicción S S S S S S S S S S S S S S S S S S S S S S S S
Secuencia S S S S N S S S S N S S N S S N S S S N N N N N
Penalización P P P P P P P P P

Si la penalización es P = 5 ciclos, al final se pierden 9 · P = 9 · 5 = 45 ciclos.

En el caso de usar un predictor estático, como el salto es hacia atrás, el predictor estimará que
siempre se va a producir el salto, con lo que el resultado es exactamente igual al anterior,
produciéndose una penalización de 45 ciclos.

En el último caso se utiliza un predictor dinámico de 2 bits inicializado al valor 11 (saltar). Para la
secuencia anterior tenemos las siguientes predicciones:
Estado 11 11 11 11 11 10 11 11 11 11 10 11 11 10 11 11 10 11 11 11 10 01 00 00
Predicción S S S S S S S S S S S S S S S S S S S S S N N N
Secuencia S S S S N S S S S N S S N S S N S S S N N N N N
Penalización P P P P P P

En este caso la penalización es 6 · P = 6 · 5 = 30 ciclos.

21 (Ejercicios de clase)
En un programa, una instrucción de salto condicional (a una dirección de salto anterior) dada tiene
el siguiente comportamiento en una ejecución de dicho programa:

SSNNNSSNSNSNSSSSSN

donde S indica que se produce el salto y N que no

Indique la penalización efectiva que se introduce si se utiliza:

a) Predicción fija (siempre se considera que se no se va a producir el salto)

b) Predicción estática (si el desplazamiento es negativo se toma y si es positivo no)
c) Predicción dinámica con dos bits, inicialmente en el estado (11).
d) Predicción dinámica con tres bits, inicialmente en el estado (111).

Nota: La penalización por saltos incorrectamente predichos es de 5 ciclos y para los saltos
correctamente predichos es 0 ciclos.

Solución.
A continuación se van a ir considerando cada uno de los esquemas de predicción indicados:

(a) Predicción Fija. En el esquema de predicción fija considerado hay penalización cuando se
produce el salto. Es decir en el caso de S (marcadas en negrita):

SSNNNSSNSNSNSSSSSN

como hay 11 casos, la penalización es igual a 11 * 5 = 55 ciclos.

(b) Predicción Estática. Teniendo en cuenta que se predice salto si éste es hacia direcciones
menores, como es el caso que aquí se considera, habrá penalización cuando no se produzca el salto:
N en la secuencia considerada (marcadas en negrita).

SSNNNSSNSNSNSSSSSN

como hay 7 casos, la penalización es igual a 7 *5 = 35 ciclos

(c) Predicción Dinámica (con dos bits de historia).

En la Tabla se muestran las penalizaciones para cada una de las 18 veces que se ejecuta la
instrucción de salto. La última fila muestra las predicciones que se hacen cada vez que se ejecuta la
instrucción de salto.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
S S N N N S S N S N S N S S S S S N
P P P P P P P P P P P
S S S S N N N S N S N S N S S S S S
3 4,8,10,12 5
NS NS NS
S 11 (S) 10 (S) 01 (NS) 00 (NS)

S S S
1,2,15 14 7,9,11,13 6

Situación
Inicial

La justificación de esas penalizaciones (tercera fila) se obtiene a partir del diagrama de estados del
esquema de predicción dinámica con dos bits, en el que se han marcado las transiciones ocasionadas
por cada ejecución de la instrucción de salto (1, 2,...., 18).

Como hay error de predicción en 11 casos, se tiene que la penalización es igual a 11* 5 =55 ciclos.

(d) Predicción Dinámica (con tres bits de historia)

En la Tabla que se muestra a continuación se indican los bits de historia que existen antes de que se
ejecute la instrucción, la predicción que determinan esos bits, y lo que finalmente ocurre (según se
indica en la secuencia objeto del problema). La última columna indica si ha habido penalización (no
coinciden la predicción y lo que ocurre al final).

Bits de Predicción Ocurre Penalización Número de

Historia Ejecución
111 S S 1
111 S S 2
111 S N P 3
011 S N P 4
001 N N 5
000 N S P 6
100 N S P 7
110 S N P 8
011 S S 9
101 S N P 10
010 N S P 11
101 S N P 12
010 N S P 13
101 S S 14
110 S S 15
111 S S 16
111 S S 17
111 S N P 18

Hay error de predicción en 10 casos, por lo tanto la penalización es de 10 * 5 = 50 ciclos

Como se puede ver, en la secuencia de ejecuciones de la instrucción de salto considerada en este

problema, el mejor esquema de predicción es la predicción estática que aquí se utiliza. El esquema
de predicción de salto dinámico con dos bits es igual de bueno (o malo) que la predicción fija.

Así, se puede indicar que la eficacia de un esquema de salto depende del perfil de saltos a que de
lugar la correspondiente instrucción de salto condicional. En la práctica, los esquemas de predicción
dinámica suelen funcionar mejor que los de predicción estática porque las instrucciones de salto
suelen repetir el comportamiento de su ejecución previa. En ese sentido, la secuencia utilizada en
este problema es bastante atípica.

22 (Benchmark diciembre 2005)

Un procesador utiliza un esquema de predicción dinámica de saltos de dos niveles similar al del
Pentium III: tres bits de historia se utilizan para indicar si en las tres últimas ejecuciones de la
instrucción hubo o no hubo salto, y esos tres bits de historia sirven de puntero a 8 contadores de dos
bits, cada uno de los cuales se utiliza para realizar la predicción correspondiente según su estado
como en un esquema de predicción de dos bits. En la primera ejecución, los tres bits que apuntan a
los contadores de dos bits están a 000 y los bits de los contadores de dos bits se inicializan a 00
(predice no saltar) si la instrucción de salto es hacia adelante y a 11(predice saltar) si el salto es
hacia atrás. Si la predicción es correcta no hay ciclos de penalización y si es correcta hay cuatro
ciclos.
¿Cual es la penalización para la secuencia de instrucciones de salto que se indica a continuación

N1S2N3N1N2S3 N1S2N3 S1S2N3

teniendo en cuenta que S significa que la instrucción dará lugar a un salto, N que no dará lugar a un
salto y cada subíndice, 1, 2, 3 hace referencia a una instrucción de salto distinta?

(Nota: La instrucción 1 es de salto hacia atrás y las 2 y 3 de salto hacia adelante).

Solución.
Se deben considerar cada una de las instrucciones de salto por separado.

Así, para la instrucción de salto 1 se tiene

N1S2N3N1N2S3 N1S2N3 S1S2N3

y por lo tanto se produce NNNS

En la siguiente tabla se muestran los resultados para esta instrucción de salto (hacia atrás):

Puntero de 3 Contador de Se predice Se produce Penalización

bits 2 bits (al que
apunta el
puntero de 3
bits)
000 11 S N P
000 10 S N P
000 01 N N -
000 00 N S P

Para la instrucción de salto 2 se tiene

N1S2N3N1N2S3 N1S2N3 S1S2N3

con lo que la secuencia de saltos y no saltos para esta instrucción es SNSS, y en la tabla siguiente se
muestran los resultados para esta instrucción de salto hacia delante.
Puntero de 3 Contador de Se predice Se produce Penalización
bits 2 bits (al que
apunta el
puntero de 3
bits)
000 00 N S P
100 00 N N -
010 00 N S P
100 00 N S P

Finalmente, para la instrucción de salto 3 se tiene

N1S2N3N1N2S3 N1S2N3 S1S2N3

con lo que la secuencia de saltos y no saltos para esta instrucción es NSNN, y en la tabla siguiente
se muestran los resultados para esta instrucción de salto hacia delante.

Puntero de 3 Contador de Se predice Se produce Penalización

bits 2 bits (al que
apunta el
puntero de 3
bits)
000 00 N N -
000 00 N S P
100 00 N N -
010 00 N N -

De esta forma el número de fallos de predicción es 7. Teniendo en cuenata que cada uno de ellos
supone una penalización de cuatro ciclos, el número de ciclos de penalización total es 7*4=28
ciclos.

23 (Benchmark diciembre 2006)

Un procesador utiliza un esquema de predicción dinámica de saltos de dos niveles similar al del
Pentium III: tres bits de historia se utilizan para indicar si en las tres últimas ejecuciones de la
instrucción hubo o no hubo salto, y esos tres bits de historia sirven de puntero a 8 contadores de dos
bits, cada uno de los cuales se utiliza para realizar la predicción correspondiente, según su estado,
como en un esquema de predicción dinámica de dos bits. En la primera ejecución, los tres bits que
apuntan a los contadores de dos bits están a 000 y los bits de los contadores de dos bits se
inicializan a 00 (predice no saltar) si la instrucción de salto es hacia adelante, y a 11(predice saltar)
si el salto es hacia atrás. Si la predicción es correcta no hay ciclos de penalización y si es incorrecta
hay cuatro ciclos.
¿Cual es la penalización para el bucle que se indica a continuación, para 1<d<8?

for (i=1 ; i<=10 ; i++)

{
b[i]=a[i]+d;
d=d+1;
if (d>8) then goto etiqueta;
}
etiqueta: ......
Compárelo con un esquema de predicción estática que predice saltar si el salto es hacia atrás y no
saltar si el salto es hacia adelante.

Solución.
Una vez traducido el código a ensamblador tendría un aspecto similar a este:

bucle: …
…
saltar a etiqueta ;S
…
…
saltar a bucle ; SB
etiqueta: …
…

En este código hay dos saltos, que a partir de ahora notaremos como S y S B (si saltan) o N y N B (si
no saltan). Para valores de d tales que 1 < d < 8 el patrón de saltos del código es:

(NSB)8 – d S

es decir, que el salto del bucle siempre se va a tomar y el salto hacia delante no se tomará nunca
excepto la última vez, en la que se saldrá del bucle y continuará hacia delante. Como tenemos un
predictor dinámico de dos niveles, para cada salto habrá un conjunto de 8 contadores de dos bits,
que se inicializarán a 00 para el salto hacia delante y a 11 para el salto hacia atrás, y se seleccionará
uno de estos 8 contadores para hacer la predicción en función del los 3 bits de historia (según el
comportamiento del salto en las últimas tres iteraciones).

Salto hacia atrás Salto hacia delante

Iter. Hist. Cont. Estado Pred. Ejec. Hist. Cont. Estado Pred. Ejec.
1 000 0 11 SB SB 000 0 00 N N
2 001 1 11 SB SB 000 0 00 N N
3 011 3 11 SB SB 000 0 00 N N
4 111 7 11 SB SB 000 0 00 N N
… … … … … … … … … … …
Última 111 7 11 — — 000 0 00 N S

Según estas tablas, en la última iteración el salto del bucle no se llega a ejecutar, ya que se sale del
bucle por el salto hacia delante. Los predictores aciertan en el comportamiento del salto hacia atrás,
que se toma todas las veces, en todas las ejecuciones del salto hacia delante menos en la última, por
lo que sólo se equivocan una vez. Por tanto, la penalización total es de:

P = 1 fallo × 4 ciclos = 4 ciclos

En el caso de que el mecanismo de predicción fuera estático, se usaría el mismo predictor para
todos los saltos. Este predictor, según el enunciado del problema, realizaría la siguiente predicción:

(NSB)8 – d N

Como el comportamiento del fragmento de código es

(NSB)8 – d S
se equivocaría en el último salto, con lo que volvemos a obtener una penalización de

P = 1 fallo × 4 ciclos = 4 ciclos

24 (Ejercicios de clase)
Considere el bucle:

for (i=1;i<=10;i++)
{
b[i]=a[i]*c;
c=c+1;
if (c>10) then goto etiqueta;
}
etiqueta:......

Indique cuál es la penalización efectiva debida a los saltos, en función del valor inicial de c (número
entero), considerando que el procesador utiliza:

a) Predicción fija (siempre se considera que se va a producir el salto)

b) Predicción estática (si el desplazamiento es negativo se toma y si es positivo no)
c) Predicción dinámica con un bit (1= Saltar; 0 = No Saltar; Inicialmente está a 1)

Nota: La penalización por saltos incorrectamente predichos es de 4 ciclos y para los saltos
correctamente predichos es 0 ciclos.

Solución.
El perfil de saltos que se produce en el bucle depende del valor inicial de la variable c. Se pueden
distinguir tres casos:

(1) c ≤ 0 : La secuencia de saltos es (N significa que no se salta, y S que se salta)

N Sb N Sb N Sb ...... N Sb N Nb = (N Sb)9 N Nb

donde el índice b se utiliza para designar a la instrucción que controla las iteraciones del bucle (una
instrucción de salto condicional hacia atrás) y distinguirla de la instrucción de salto condicional que
hay dentro del bucle (salto hacia delante, para la que no se utiliza índice). En este caso, se ejecutan
todas las iteraciones del bucle.

(2) 1 ≤ c < 10 :
Si c = 9 N Sb S
Si c = 8 N Sb N Sb S
............................................
Es decir, que se tiene
(N Sb) (10-c) S

(3) 10 ≤ c : La secuencia de saltos es

Ya que no se realizaría ninguna iteración completa, al verificarse la condición de salto de la

instrucción condicional que hay dentro del bucle.
Una vez obtenidas las posibles secuencias de saltos / no saltos correspondientes a los distintos
valores posibles de c, se pasa a considerar cada uno de los esquemas de predicción indicados:

a) Predicción Fija (considerando que siempre se salta):

1. (N Sb) ocasiona penalización debido a N, es decir 4 ciclos; N y Nb ocasionan otros 4

ciclos cada una, por lo que
(N Sb)9 N Nb da lugar a 9 x 4 + 4 + 4 = 44 ciclos de penalización
(10-c)
2. Como (N Sb) da lugar a 4 ciclos de penalización y S a ninguno, se tiene que (N Sb)
S da lugar a 4*(10-c) ciclos de penalización.

3. S no da lugar a ninguna penalización en este esquema.

b) Predicción Estática (Se predice salto en los saltos a direcciones menores y no saltar a las
mayores.

En este tipo de predicción, N y Sb no dan lugar a penalización, y S y Nb dan lugar a una

penalización igual a 4 ciclos

1. (N Sb) 9 N Nb da lugar a una penalización de 9*0 + 0 + 4 = 4 ciclos

2. (N Sb) (10-c) S da lugar a una penalización de (10-c) * 0 + 4 = 4 ciclos
3. S da lugar a una penalización de 4 ciclos

Por consiguiente, para cualquier valor de c, este esquema de predicción siempre da lugar a 4
ciclos de penalización.

c) Predicción dinámica con 1 bit de historia

Se considera que inicialmente el bit es igual a 1, prediciendo que se produce el salto. El

diagrama de estados correspondiente a este esquema de predicción es el siguiente (se
predice lo último que ocurrió):
Salta

1 0
Salta (Saltar) (NoSaltar)

No Salta

1. (N Sb) 9 N Nb ocasiona una penalización debida al primer N y al último Nb, por lo que
hay 4 + 4 = 8 ciclos de penalización (un fallo por cada instrucción).
2. (N Sb) (10-c) S ocasiona una penalización debida al primer N y al último S, por lo que hay
4 +4 = 8 ciclos de penalización (las dos asociadas a la instrucción que hay dentro del
bucle).
3. Este último caso no da lugar a penalización porque la predicción inicial para toda
instrucción de salto es, precisamente, que se produce el salto.

25 (Ejercicios de clase)
En la situación descrita en el problema anterior. ¿Cuál de los tres esquemas es más eficaz por
término medio si hay un 25% de probabilidades de que c sea menor o igual a 0, un 30% de que sea
mayor o igual a 10; y un 45% de que sea cualquier número entre 1 y 9, siendo todos equiprobables?
Solución.
Para resolver el problema se tendrán en cuenta los valores de las penalizaciones para cada valor de
la variable c, y las probabilidades de cada uno de esos valores.

(a) Predicción fija (se tiene en cuenta que todos los valores de c entre 1 y 9 son equiprobables):

0 .4 5
P  4 4 * 0 .2 5  
c  1 ,., 9
4 * (1 0  c ) * (
9
)  11 9  20

(Para valores mayores o iguales a 10 la penalización es 0)

(b) Predicción estática: La penalización es igual a 4 ciclos dado que toma este valor para todo c.

(c) Predicción dinámica (con 1 bit de historia):

P = 80.25 + 80.45 = 8 * 0.7 = 5.6 ciclos

Como se puede ver, para este bucle, y para la distribución de probabilidad de los valores de c, el
esquema de predicción más eficiente corresponde a la predicción estática. No obstante, como se ha
visto, esta situación depende de las probabilidades de los distintos valores de c. Si, por ejemplo, la
probabilidad de que c esté entre 1 y 9 es de 0.15, la penalización para la predicción dinámica con 1
bit de historia sería de 8*0.4=3.2 ciclos, mientras que la predicción estática seguiría presentando
una penalización de 4 ciclos.

26 (Benchmark diciembre 2004)

En la secuencia de instrucciones DLX siguientes:

addi r1,r0,#6 ; r1 = 6
add r4,r0,r1 ; r4 = r1
lw r2,dato ; r2 = dato
inicio: subi r3,r1,r2 ; r3 = r1 – r2
beqz r3, final ; si r3=0 saltar a final
addf f3,f2,f1 ; f3 = f2 + f1
addi r2,r2,#1 ; r2 = r2 + 1
subi r4,r4,#1 ; r4 = r4 – 1
bnez r4,inicio ; saltar a inicio si r4 es distinto de 0
final:

Indique cuál es la penalización efectiva debida a los saltos, en función del valor inicial de dato
(número entero mayor o igual que cero), considerando:

a) Que el procesador utiliza predicción estática (si el salto es hacia atrás predice saltar y si es
hacia delante no saltar).

b) Que el procesador utiliza predicción dinámica con un bit, suponiendo que el estado inicial es
1 (es decir, predice saltar) si el salto es hacia atrás, y 0 (es decir, predice no saltar) si el salto
es hacia adelante.

c) Que el procesador utiliza predicción dinámica con dos bits, suponiendo que el estado inicial
es 11 (es decir, predice saltar) si el salto es hacia atrás, y 00 (es decir, predice no saltar) si el
salto es hacia adelante.
d) ¿Cuál es la penalización media en cada uno de los casos anteriores si la probabilidad de que
dato sea menor que 5 es un 70%?

Nota: La penalización por saltos incorrectamente predichos es de 4 ciclos y para los saltos
correctamente predichos es 0 ciclos.

Solución.
En el trozo de código del enunciado aparecen dos saltos, el primero hacia delante, que notaremos
como S o N, dependiendo de si salta o no, y el segundo, que es el salto de control del bucle, que
notaremos como SB o NB. Lo primero que hay que hacer es encontrar los patrones que describen el
comportamiento de los saltos en función del valor que tenga la variable dato:

 Si dato = 0 o dato ≥ 7, la ejecución de los saltos será: (NSB)5 NNB.

 Si 0 < dato < 7, la ejecución de los saltos será: (NSB)6 – dato S.

Una vez que tenemos el comportamiento que tendrán los saltos, solo nos queda ver cómo le afectan
los distintos predictores:

(a) El predictor estático predice los saltos hacia delante como no tomados y los saltos hacia atrás
como tomados, así las predicciones serían: