0% found this document useful (0 votes)

70 views23 pages

Course 3 Module 5

Uploaded by

Samantha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

70 views23 pages

Course 3 Module 5

Uploaded by

Samantha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Computer Architecture

ELE 475 / COS 475

Slide Deck 4: Superscalar 1
David Wentzlaff
Department of Electrical Engineering
Princeton University

1
Types of Data Hazards
Consider executing a sequence of
rk ri op rj
type of instructions
Data-dependence
r3  r1 op r2 Read-after-Write
r5  r3 op r4 (RAW) hazard

Anti-dependence
r3  r1 op r2 Write-after-Read
r1  r4 op r5 (WAR) hazard

Output-dependence
r3  r1 op r2 Write-after-Write
r3  r6 op r7 (WAW) hazard
2
Introduction to Superscalar Processor
• Processors studied so far are fundamentally
limited to CPI >= 1
• Superscalar processors enable CPI < 1 (IPC > 1)
by executing multiple instructions in parallel
• Can have both in-order and out-of-order
superscalar processors. We will start with in-
order.

3
Baseline 2-Way In-Order Superscalar
Processor

IR0 Branch Cond.

ALU
PC
addr
rdata A
RF RF
Instr. IR1 Read
Cache
Write
ALU
addr
B rdata

Data
Cache

Pipe A: Integer Ops., Branches

Pipe B: Integer Ops., Memory 4
Baseline 2-Way In-Order Superscalar
Processor

4 Read 2 Write
IR0 Ports Branch Cond. Ports
ALU
PC
addr
rdata A
RF RF
Instr. IR1 Read
Cache
Write
ALU
addr
B rdata

Data
Fetch 2 Instructions at Cache
same time
Pipe A: Integer Ops., Branches
Pipe B: Integer Ops., Memory 5
Baseline 2-Way In-Order Superscalar
Processor

IR0 Branch Cond.

ALU
PC
addr
rdata A
RF RF
Instr. IR1 Read
Cache
Write
ALU
addr
B rdata

Data
Issue Logic / Cache
Instruction
Steering Pipe A: Integer Ops., Branches
Pipe B: Integer Ops., Memory 6
Baseline 2-Way In-Order Superscalar
Duplicate Control
Processor
IR0 Decode A

IR1 Decode B

IR0 Branch Cond.

ALU
PC
addr
rdata A
RF RF
Instr. IR1 Read
Cache
Write
ALU
addr
B rdata

Data
Cache

Pipe A: Integer Ops., Branches

Pipe B: Integer Ops., Memory 7
Issue Logic Pipeline Diagrams
OpA F D A0 A1 W CPI = 0.5 (IPC = 2)
OpB F D B0 B1 W
OpC F D A0 A1 W Double Issue Pipeline
Can have two instructions in
OpD F D B0 B1 W same stage at same time
OpE F D A0 A1 W
OpF F D B0 B1 W

ADDIU F D A0 A1 W
LW F D B0 B1 W
Instruction Issue Logic swaps from
LW F D B0 B1 W natural position
ADDIU F D A0 A1 W
LW F D B0 B1 W
Structural
LW F D D B0 B1 W Hazard
8
Dual Issue Data Hazards
No Bypassing:
ADDIU R1,R1,1 F D A0 A1 W
ADDIU R3,R4,1 F D B0 B1 W
ADDIU R5,R6,1 F D A0 A1 W
ADDIU R7,R5,1 F D D D D A0 A1 W

Full Bypassing:
ADDIU R1,R1,1 F D A0 A1 W
ADDIU R3,R4,1 F D B0 B1 W
ADDIU R5,R6,1 F D A0 A1 W
ADDIU R7,R5,1 F D D A0 A1 W 9
Dual Issue Data Hazards
Order Matters:
ADDIU R1,R1,1 F D A0 A1 W
ADDIU R3,R4,1 F D B0 B1 W
ADDIU R7,R5,1 F D A0 A1 W
ADDIU R5,R6,1 F D B0 B1 W

WAR Hazard Possible?

10
Fetch Logic and Alignment
Cyc Addr Instr
0 0x000 OpA 0x000 0 0 1 1
0 0x004 OpB
1 0x008 OpC …
1 0x00C J 0x100
… 0x100 2 2
2 0x100 OpD
2 0x104 J 0x204 …
…
3 0x204 OpE 0x200 3 3
3 0x208 J 0x30C
…
…
4 0x30C OpF 0x300 4
4 0x310 OpG
5 0x314 OpH 0x310 4 5

Fetching across cache Lines is

very hard. May need extra ports 11
Fetch Logic and Alignment
Cyc Addr Instr
0 0x000 OpA Ideal, No Alignment Constraints
0 0x004 OpB
1 0x008 OpC OpA F D A0 A1 W
1 0x00C J 0x100 OpB F D B0 B1 W
… OpC F D B0 B1 W
2 0x100 OpD J F D A0 A1 W
2 0x104 J 0x204 OpD F D B0 B1 W
… J F D A0 A1 W
3 0x204 OpE OpE F D B0 B1 W
3 0x208 J 0x30C J F D A0 A1 W
… OpF F D A0 A1 W
4 0x30C OpF OpG F D B0 B1 W
4 0x310 OpG OpH F D A0 A1 W
5 0x314 OpH

12
With Alignment Constraints
Cyc Addr Instr
? 0x000 OpA 0x000 0 0 1 1
? 0x004 OpB
? 0x008 OpC …
? 0x00C J 0x100
… 0x100 2 2
? 0x100 OpD
? 0x104 J 0x204 …
…
? 0x204 OpE 0x200 3 3 4 4
? 0x208 J 0x30C
…
…
? 0x30C OpF 0x300 5 5
? 0x310 OpG
? 0x314 OpH 0x310 6 6

13
With Alignment Constraints
Cyc Addr Instr
1 0x000 OpA F D A0 A1 W
1 0x004 OpB F D B0 B1 W
2 0x008 OpC F D B0 B1 W
2 0x00C J 0x100 F D A0 A1 W
3 0x100 OpD F D B0 B1 W
3 0x104 J 0x204 F D A0 A1 W
4 0x200 ? F - - - -
4 0x204 OpE F D A0 A1 W
5 0x208 J 0x30C F D A0 A1 W
5 0x20C ? F - - - -
6 0x308 ? F - - - -
6 0x30C OpF F D A0 A1 W
7 0x310 OpG F D A0 A1 W
7 0x314 OpH F D B0 B1 W
14
Precise Exceptions and Superscalars
• Similar to tracking program order for data
dependencies, we need to track order for
exceptions

LW F D B0 B1 W
SYSCALL F D A0 A1 W

LW is in B pipeline, but commits first in logical

order!

15
Bypassing in Superscalar Pipelines

IR0 Branch Cond.

ALU
PC
addr
rdata A
RF RF
Instr. IR1 Read
Cache
Write
ALU
addr
B rdata

Data
Cache

16
Bypassing in Superscalar Pipelines

Branch Cond.
ALU

A
RF
Write
ALU
addr
B rdata

Data
Cache

17
Bypassing in Superscalar Pipelines

Branch Cond.
ALU

A
RF
Write
ALU
addr
B rdata

Data
Cache

18
Bypassing in Superscalar Pipelines

Branch Cond.
ALU

A1 3 5
RF
Write
ALU
addr
B2 rdata

Data
4 6
Cache

19
123456
Breaking Decode and Issue Stage
• Bypass Network can become very complex
• Can motivate breaking Decode and Issue Stage
D = Decode, Possibly resolve structural Hazards
I = Register file read, Bypassing, Issue/Steer
Instructions to proper unit

OpA F D I A0 A1 W
OpB F D I B0 B1 W
OpC F D I A0 A1 W
OpD F D I B0 B1 W
20
Superscalars Multiply Branch Cost
BEQZ F D I A0 A1 W
OpA F D I B0 - -
OpB F D I - - -
OpC F D I - - -
OpD F D - - - -
OpE F D - - - -
OpF F - - - - -
OpG F - - - - -
OpH F D I A0 A1 W
OpI F D I B0 B1 W
21
Acknowledgements
• These slides contain material developed and copyright by:
– Arvind (MIT)
– Krste Asanovic (MIT/UCB)
– Joel Emer (Intel/MIT)
– James Hoe (CMU)
– John Kubiatowicz (UCB)
– David Patterson (UCB)
– Christopher Batten (Cornell)

• MIT material derived from course 6.823

• UCB material derived from course CS252 & CS152
• Cornell material derived from course ECE 4750

Super Scalar 2
No ratings yet
Super Scalar 2
46 pages
Computer Architecture
100% (2)
Computer Architecture
46 pages
Ee660 2017 Spring Materials Week 04 Slides
No ratings yet
Ee660 2017 Spring Materials Week 04 Slides
40 pages
Complex Pipelining: Arvind
No ratings yet
Complex Pipelining: Arvind
32 pages
Pipe 4
No ratings yet
Pipe 4
50 pages
M116C 1 M116C 1 Lec10-Pipeline-II
No ratings yet
M116C 1 M116C 1 Lec10-Pipeline-II
18 pages
Chapter 04 Processor 3.5
No ratings yet
Chapter 04 Processor 3.5
52 pages
Tiled Chip Multicore Processor Overview
No ratings yet
Tiled Chip Multicore Processor Overview
64 pages
A I Ex Presentation
No ratings yet
A I Ex Presentation
45 pages
05 Wideissue
No ratings yet
05 Wideissue
77 pages
MUIC Syskill 2021 t3 Final
No ratings yet
MUIC Syskill 2021 t3 Final
16 pages
Exe On Pipelining
No ratings yet
Exe On Pipelining
12 pages
MIE438 - Spring 2014 - Lecture Slides 3 (1) - 615279
No ratings yet
MIE438 - Spring 2014 - Lecture Slides 3 (1) - 615279
32 pages
Chapter4 2
No ratings yet
Chapter4 2
34 pages
Mil-Std-1750a (Sixteen-Bit Computer Instruction Set Architecture)
No ratings yet
Mil-Std-1750a (Sixteen-Bit Computer Instruction Set Architecture)
162 pages
Mid Sem Q1 Q4 Solutions
No ratings yet
Mid Sem Q1 Q4 Solutions
5 pages
Advanced CPU Pipeline Techniques
No ratings yet
Advanced CPU Pipeline Techniques
17 pages
Section 7
No ratings yet
Section 7
23 pages
ARM Architecture Overview
No ratings yet
ARM Architecture Overview
44 pages
L04 PipeliningII
No ratings yet
L04 PipeliningII
33 pages
MIPS Pipelining and Hazards
0% (1)
MIPS Pipelining and Hazards
38 pages
Chapter04 ProcessorDesign PDF
No ratings yet
Chapter04 ProcessorDesign PDF
39 pages
ARM K
No ratings yet
ARM K
32 pages
5 Advanced-1
No ratings yet
5 Advanced-1
60 pages
Execution Time and Addressing Modes
No ratings yet
Execution Time and Addressing Modes
11 pages
Falcon-E: Introduction: (I.e., 4 Byte Chunks)
No ratings yet
Falcon-E: Introduction: (I.e., 4 Byte Chunks)
61 pages
Computer Architecture: Introduction To The Concept of Pipelined Processor
No ratings yet
Computer Architecture: Introduction To The Concept of Pipelined Processor
20 pages
Y86 Instruction Set Overview
No ratings yet
Y86 Instruction Set Overview
14 pages
1H
No ratings yet
1H
8 pages
1 - 6809 Instruction Set
No ratings yet
1 - 6809 Instruction Set
7 pages
Sdca Course Info
No ratings yet
Sdca Course Info
5 pages
Unit V
No ratings yet
Unit V
23 pages
L2.1 CSE-4821 Instruction Set Architecture
No ratings yet
L2.1 CSE-4821 Instruction Set Architecture
13 pages
Lecture 6
No ratings yet
Lecture 6
54 pages
CCEE 324 Computer Organization Chapter 5 Lecture 18
No ratings yet
CCEE 324 Computer Organization Chapter 5 Lecture 18
63 pages
Cs2100 12 Basic Datapath
No ratings yet
Cs2100 12 Basic Datapath
50 pages
04 - Instruction Set Architecture-RV Part III
No ratings yet
04 - Instruction Set Architecture-RV Part III
56 pages
Single Cycle Processor Design Overview
No ratings yet
Single Cycle Processor Design Overview
40 pages
06 Ooo Basics
No ratings yet
06 Ooo Basics
74 pages
L05 PipeliningII
No ratings yet
L05 PipeliningII
36 pages
L04 Pipelining
No ratings yet
L04 Pipelining
38 pages
Lecture 10
No ratings yet
Lecture 10
51 pages
CS2100 Exam16s2 - Qns
No ratings yet
CS2100 Exam16s2 - Qns
12 pages
Lecture-14-03 02 2025
No ratings yet
Lecture-14-03 02 2025
53 pages
Avr A & A: Rchitecture Ssembly
No ratings yet
Avr A & A: Rchitecture Ssembly
45 pages
Reduced Instruction Set Computer (Risc) Complex Instruction Set Computer (Cisc)
No ratings yet
Reduced Instruction Set Computer (Risc) Complex Instruction Set Computer (Cisc)
7 pages
CA Mid 2 Summary Book
No ratings yet
CA Mid 2 Summary Book
11 pages
Hw5 Solution
No ratings yet
Hw5 Solution
11 pages
Computer Architecture Essentials
No ratings yet
Computer Architecture Essentials
42 pages
PIC Microcontroller Instruction Overview
100% (1)
PIC Microcontroller Instruction Overview
75 pages
3 Pipeline
No ratings yet
3 Pipeline
21 pages
Instruction Set Architecture Overview
No ratings yet
Instruction Set Architecture Overview
52 pages
Computer Organization Lecture 6 Overview
No ratings yet
Computer Organization Lecture 6 Overview
127 pages
ARM Assembly for Embedded Systems
100% (1)
ARM Assembly for Embedded Systems
38 pages
MIPS Processor Design Basics
No ratings yet
MIPS Processor Design Basics
13 pages
Slide n4 Handout
No ratings yet
Slide n4 Handout
44 pages
Getting Started With Microchip PIC18 Architecture
100% (2)
Getting Started With Microchip PIC18 Architecture
71 pages
Aiwa HS-TX406 Service Manual
No ratings yet
Aiwa HS-TX406 Service Manual
24 pages
WG24064A-FMI-V LCD Module Specs
No ratings yet
WG24064A-FMI-V LCD Module Specs
33 pages
Catalogue of LV Switchgear
No ratings yet
Catalogue of LV Switchgear
29 pages
FY400 Digital Controller Manual
No ratings yet
FY400 Digital Controller Manual
85 pages
Skylineled Plus: High Efficiency Led Streetlights
No ratings yet
Skylineled Plus: High Efficiency Led Streetlights
2 pages
Arcon STD Om 20210906 en
100% (1)
Arcon STD Om 20210906 en
26 pages
Understanding Semiconductor Wafers
No ratings yet
Understanding Semiconductor Wafers
5 pages
NCR18650 Panasonic
No ratings yet
NCR18650 Panasonic
1 page
30 0300 X Series Wideband UEGO AFR Sensor Gauge
No ratings yet
30 0300 X Series Wideband UEGO AFR Sensor Gauge
13 pages
Emergency Lighting Load Calculations
No ratings yet
Emergency Lighting Load Calculations
1 page
Tire Pressure Monitoring
No ratings yet
Tire Pressure Monitoring
3 pages
GOLDEN Motor Test Curve: I N EFF
No ratings yet
GOLDEN Motor Test Curve: I N EFF
1 page
Learning the Art of Electronics A Hands On Lab Course Tom Hayes ebook fresh digital copy
100% (4)
Learning the Art of Electronics A Hands On Lab Course Tom Hayes ebook fresh digital copy
47 pages
Effective Resistance Calculation For Fixing Reliability Verification Violations
No ratings yet
Effective Resistance Calculation For Fixing Reliability Verification Violations
5 pages
GSI 10530 Series
No ratings yet
GSI 10530 Series
4 pages
Data Acquisition System Overview
No ratings yet
Data Acquisition System Overview
12 pages
2014 XM Connector Diagram
No ratings yet
2014 XM Connector Diagram
3 pages
Opto-Isolated I/O Board: VCC Is 5 VDC, +V Is 5 VDC (VCC and +V Are Isolated For Each Other)
No ratings yet
Opto-Isolated I/O Board: VCC Is 5 VDC, +V Is 5 VDC (VCC and +V Are Isolated For Each Other)
2 pages
Resonance Testing
No ratings yet
Resonance Testing
15 pages
Tack Welder Level 3 Question Bank I Fill in The Blanks
100% (1)
Tack Welder Level 3 Question Bank I Fill in The Blanks
6 pages
DP-88 User's Manual
No ratings yet
DP-88 User's Manual
61 pages
DM1 A
No ratings yet
DM1 A
34 pages
GroupCataloguePage 1112
No ratings yet
GroupCataloguePage 1112
2 pages
6 Cable Drawing Datasheet RPM 119 1693
No ratings yet
6 Cable Drawing Datasheet RPM 119 1693
4 pages
P3M30-32-en-M-I006-IEC-web 218 219 Start Per Hour 66
No ratings yet
P3M30-32-en-M-I006-IEC-web 218 219 Start Per Hour 66
2 pages
MSII 6-10K Parallel Quick Installation Guide
No ratings yet
MSII 6-10K Parallel Quick Installation Guide
9 pages
Bourns SMA6J Diode-Unidirectionnelle Eng Tds
No ratings yet
Bourns SMA6J Diode-Unidirectionnelle Eng Tds
6 pages
4Gb F-Die NAND Flash: Datasheet
No ratings yet
4Gb F-Die NAND Flash: Datasheet
51 pages
Quiz Final
No ratings yet
Quiz Final
15 pages
Manual de Armado KIT Detector de Metal MDS 60
No ratings yet
Manual de Armado KIT Detector de Metal MDS 60
2 pages

Course 3 Module 5

Uploaded by

Course 3 Module 5

Uploaded by

Computer Architecture

ELE 475 / COS 475

IR0 Branch Cond.

Pipe A: Integer Ops., Branches

IR0 Branch Cond.

IR0 Branch Cond.

Pipe A: Integer Ops., Branches

WAR Hazard Possible?

Fetching across cache Lines is

LW is in B pipeline, but commits first in logical

IR0 Branch Cond.

• MIT material derived from course 6.823

You might also like