0% fanden dieses Dokument nützlich (0 Abstimmungen)

34 Ansichten4 Seiten

Ueb 07

Hochgeladen von

gitec99368

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

0% fanden dieses Dokument nützlich (0 Abstimmungen)

34 Ansichten4 Seiten

Ueb 07

Hochgeladen von

gitec99368

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

PR RECHNERORGANISATION 621.701 – 621.

703 WS 2018/19

Institut für Informationstechnologie (ITEC) Raffelsberger / Taschwer / Timmerer

_________________________________________________________

Übungsblatt 7

7.1 Loop Unrolling

Gegeben sei folgendes MIPS-Assemblercodefragment, das auf einem Pipelined-Prozessor

ohne „Branch Prediction“, aber mit „Delayed Branching“ (1 Takt Branch Delay) ausgeführt
wird. Die Latenzen zwischen abhängigen Befehlen sind in der Tabelle am Ende des
Übungsblattes angegeben.

# initialize c as $f0, d as $f2 – not shown

loop: l.d $f4, 0($t0) # load x[i]
sub.d $f6, $f4, $f0 # x[i] - c
l.d $f8, 0($t1) # load y[i]
mul.d $f10, $f6, $f8 # (x[i] – c) * y[i]
add.d $f12, $f10, $f2 # (x[i] - c) * y[i] + d
s.d $f12, 0($t2) # store result element z[i]
addi $t2, $t2, -8
addi $t1, $t1, -8
addi $t0, $t0, -8
bne $t0, $t4, loop
nop

(a) Identifizieren sie alle Daten- und Kontrollabhängigkeiten, die Leerzyklen (Stalls)
verursachen. Wie viele Takte werden für ein Ergebniselement (durch s.d gespeicherter
Wert) benötigt?

(b) Optimieren Sie den Code durch Umordnen von Befehlen so, dass er auf dem gegebenen
Prozessor möglichst schnell ausgeführt wird. Wie viele Takte werden für die Verarbeitung
eines Ergebniselements (z[i]) durchschnittlich benötigt?

(c) Rollen Sie die Schleife zweimal ab (zwei Kopien des Code-Fragments in einer
Schleifeniteration), und ordnen Sie den Code so um, dass er auf dem gegebenen
Prozessor möglichst schnell ausgeführt wird. Wie viele Takte werden nun pro
Ergebniselement benötigt?

(d) Wodurch wird die Leistungssteigerung beim Abrollen von Schleifen im Allgemeinen
erreicht?

Seite 1 von 4
7.2 Loop Unrolling, Superskalare Prozessoren

Gegeben sei das unten stehende Code Fragment. Ordnen Sie den Code der zweimal
abgerollten Schleife so an, dass er optimal auf einem superskalaren Prozessor mit „Delayed
Branching“ entsprechend VO-Folie 3-154 ausgeführt werden kann. Es gelten die Latenzen
zwischen abhängigen Befehlen wie in der am Ende des Übungsblattes stehenden Tabelle
angegeben. Wie viele Takte werden pro Ergebniselement benötigt?
# $f0 (v) and $f8 (u) contain constants
loop: l.d $f2, 0($t0) # load x[i]
add.d $f2, $f2, $f8 # x[i] + u
l.d $f12, 0($t1) # load y[j]
add.d $f12, $f12, $f0 # y[j] + v
div.d $f10, $f2, $f12 # x[i] / y[j]
add.d $f2, $f10, $f12 # y[j] + x[i] / y[j]
mul.d $f4, $f2, $f10 # (y[j] + x[i]/y[j])*((x[i] + v)/ y[j])

s.d $f4, 0($t2) # store z[i]

addi $t0, $t0, 8
addi $t1, $t1, 8
addi $t2, $t2, 8
bne $t0, $t3, loop
nop

7.3 Statische „Dual Issue“ Prozessoren

Gegeben sei ein statischer „dual-issue“-Prozessor (vgl. VO-Folie 3-135) mit fünf Pipeline-
Stufen, auf dem ein Programm mit folgenden Befehlshäufigkeiten ausgeführt wird:

Befehlsklasse Häufigkeit

ALU-Operationen 40%

beq (Sprung richtig vorhergesagt) 10%

beq (Sprung falsch vorhergesagt) 5%

lw 30%

sw 15%

Sie können folgende Annahmen treffen:

 der Prozessor kann stets zwei beliebige Instruktionen im gleichen Takt ausführen
(ausgenommen Branch-Befehle)

 die Sprungvorhersage erfolgt in der ersten Pipeline-Stufe und Sprünge für „branch“-
Befehle werden in der zweiten Pipeline-Stufe ausgeführt

 im Programm sind Branch-Befehle nicht unmittelbar hintereinander angeordnet; die

Häufigkeit der Branch-Befehle an geraden bzw. ungeraden Wortadressen ist gleich
 es treten keine Leertakte aufgrund von Datenabhängigkeiten auf
Seite 2 von 4
 „delay slots“ werden nicht verwendet.

(a) Bestimmen Sie den CPI-Wert für die Ausführung dieses Programms.

(b) Welcher Speedup im Vergleich zu (a) würde erreicht, wenn die Sprungvorhersage perfekt
wäre?

(c) Angenommen, der Prozessor habe nur ein Write-Port in der Registereinheit, d.h. es
können nicht zwei Befehle parallel in die Registereinheit schreiben (vgl. VO-Folie 3-133).
Welcher Speedup wird erreicht, wenn ein zweiter Write-Port hinzugefügt wird?

7.4 Dynamisches Pipeline-Scheduling

Stellen Sie die Ausführung des (nicht abgerollten und nicht umgeordneten) Codes aus
Aufgabe 7.1 auf dem superskalaren Beispielprozessor mit „Dynamic Scheduling“ und „Branch
Prediction“ wie auf VO-Folie 3-159 dar. Wie viele Takte werden pro Ergebniselement
benötigt?

Eigenschaften des Beispielprozessors:

 Es gibt zwei „Issue“-Pipelines, sodass in jedem Takt mit der Verarbeitung von zwei
Befehlen begonnen werden kann: ein FP-Befehl und ein anderer Befehlstyp (INT, Branch,
Load/Store).

 Es sind genügend Reservierungsstationen und Funktionseinheiten vorhanden, um alle

Befehle der Schleife aufzunehmen.

 Zwischen abhängigen Befehlen in derselben Pipeline findet „Forwarding“ statt, sodass die
Fertigstellung (Commit) eines Befehls und der Ausführungsbeginn eines abhängigen
Befehls im selben Takt erfolgen können.

 Die „Commit“-Reihenfolge muss nicht mit der „Issue“-Reihenfolge übereinstimmen („out-

of-order completion“).

 Die Dauer der „Execute“-Phase für verschiedene Befehlsgruppen sei durch folgende
Tabelle gegeben. Die Dauer von „Branch“- und „Store“-Befehlen ist hier nicht relevant,
weil sie jedenfalls kleiner als die Ausführungsdauer einer Iteration des gegebenen Codes
ist und die Sprungvorhersage für die gegebene Schleife fast immer richtig ist.

Befehlsgruppe FP Load FP Arithmetik Übrige Befehle

Execute/Takte 2 3 1

Seite 3 von 4
7.5 VLIW

Ordnen Sie den Code der sechsmal abgerollten Schleife aus Aufgabe 7.1 so an, dass er
optimal auf einem VLIW-Prozessor entsprechend VO-Folien 3-158 ausgeführt werden kann.
Nehmen Sie an, dass der Prozessor 64 FP-Register besitzt und Branch Prediction
implementiert. Die Latenzen zwischen abhängigen Befehlen entnehmen Sie bitte
untenstehender Tabelle.

(a) Wie viele Takte werden pro Ergebniselement benötigt?

(b) Bestimmen Sie für die Ausführung dieses Codes die Effizienz der Prozessorauslastung
und den „Instructions per Cycle (IPC)“-Wert.

Latenzen der Bsp. Prozessoren für Bsp. 7.1 und Bsp. 7.5 (FP=Floating Point):

Erzeugender Befehl Benutzender Befehl Latenz / Zwischentakte

(schreibt Register $x) (liest Register $x) (um Leerzyklen zu vermeiden)

FP ALU operation FP ALU operation 3

FP ALU operation Store FP double 2

Load FP double FP ALU operation 1

Load FP double Store FP double 0

Load integer Integer operation 1

Load integer Branch 2

Integer operation Integer operation 0

Integer operation Branch 1

Seite 4 von 4

Das könnte Ihnen auch gefallen

BS - Probeklausurlösung - 2015
Noch keine Bewertungen
BS - Probeklausurlösung - 2015
41 Seiten
Altklausur August2022 230722 114957
Noch keine Bewertungen
Altklausur August2022 230722 114957
9 Seiten
Aufgabe 2: Betriebssystempraktikum Im Wintersemester 2023/2024
Noch keine Bewertungen
Aufgabe 2: Betriebssystempraktikum Im Wintersemester 2023/2024
5 Seiten
Ueb 06
Noch keine Bewertungen
Ueb 06
3 Seiten
BS - Probeklausurlösung - 2016
Noch keine Bewertungen
BS - Probeklausurlösung - 2016
36 Seiten
Klausur GBR 2019
Noch keine Bewertungen
Klausur GBR 2019
4 Seiten
2021s BS Probeklausur - WWW
Noch keine Bewertungen
2021s BS Probeklausur - WWW
8 Seiten
Ueb 05
Noch keine Bewertungen
Ueb 05
2 Seiten
Aufgabenblatt 6
Noch keine Bewertungen
Aufgabenblatt 6
3 Seiten
Lehrstuhl Für Angewandte Informatik II: Aufgabe 9.1
Noch keine Bewertungen
Lehrstuhl Für Angewandte Informatik II: Aufgabe 9.1
2 Seiten
BS - Probeklausurlösung - 2017
Noch keine Bewertungen
BS - Probeklausurlösung - 2017
34 Seiten
Digitaltechnik Wintersemester 2024/2025 Hausaufgabe E: (Zu VL/UB 9+10)
Noch keine Bewertungen
Digitaltechnik Wintersemester 2024/2025 Hausaufgabe E: (Zu VL/UB 9+10)
12 Seiten
Blatt01 Ws1920 Loesung Korr
Noch keine Bewertungen
Blatt01 Ws1920 Loesung Korr
6 Seiten
BS - Probeklausur - 2015
Noch keine Bewertungen
BS - Probeklausur - 2015
7 Seiten
Klausur Sose 2023
Noch keine Bewertungen
Klausur Sose 2023
14 Seiten
Grundlagen Technischer Informatik Klausur Mit Loesung
Noch keine Bewertungen
Grundlagen Technischer Informatik Klausur Mit Loesung
15 Seiten
BS - Probeklausur - 2017
Noch keine Bewertungen
BS - Probeklausur - 2017
5 Seiten
BS - Probeklausur - 2018
Noch keine Bewertungen
BS - Probeklausur - 2018
6 Seiten
2021s BS Klausur - WWW
Noch keine Bewertungen
2021s BS Klausur - WWW
8 Seiten
Zusammenfassung Betriebssysteme Übung
Noch keine Bewertungen
Zusammenfassung Betriebssysteme Übung
12 Seiten
2021w BS Klausur - WWW
Noch keine Bewertungen
2021w BS Klausur - WWW
8 Seiten
Ueb 02
Noch keine Bewertungen
Ueb 02
2 Seiten
Grundbegriffe Der Informatik - Aufgabenblatt 7: 2 5 3 5 Chen
Noch keine Bewertungen
Grundbegriffe Der Informatik - Aufgabenblatt 7: 2 5 3 5 Chen
6 Seiten
BS - Probeklausurlösung - 2018
Noch keine Bewertungen
BS - Probeklausurlösung - 2018
44 Seiten
Aufg 02
Noch keine Bewertungen
Aufg 02
3 Seiten
Gds 20170921 Loesung
Noch keine Bewertungen
Gds 20170921 Loesung
13 Seiten
Erste Schritte Mit CoDeSys V23
Noch keine Bewertungen
Erste Schritte Mit CoDeSys V23
10 Seiten
TI II H21 Inform PO6
Noch keine Bewertungen
TI II H21 Inform PO6
11 Seiten
1TKGdRA Musterloesung
100% (1)
1TKGdRA Musterloesung
7 Seiten
SPS Technik Ankreuzaufgabe
Noch keine Bewertungen
SPS Technik Ankreuzaufgabe
3 Seiten
Grundwissen SPS-Technik: 1.1 Historie
Noch keine Bewertungen
Grundwissen SPS-Technik: 1.1 Historie
21 Seiten
Skript Betriebssysteme
Noch keine Bewertungen
Skript Betriebssysteme
284 Seiten
Zusammenfassung Assembler
Noch keine Bewertungen
Zusammenfassung Assembler
2 Seiten
Sample Exam IT样卷
Noch keine Bewertungen
Sample Exam IT样卷
16 Seiten
BS - Probeklausur - 2016
Noch keine Bewertungen
BS - Probeklausur - 2016
7 Seiten
M9 VLSI Anwendungen: Teil 7 - Retiming II
Noch keine Bewertungen
M9 VLSI Anwendungen: Teil 7 - Retiming II
31 Seiten
Vorlesung 03
Noch keine Bewertungen
Vorlesung 03
15 Seiten
S 7 Kurs 2000
Noch keine Bewertungen
S 7 Kurs 2000
204 Seiten
ES 01 Einfuehrung
Noch keine Bewertungen
ES 01 Einfuehrung
19 Seiten
Blatt 01
Noch keine Bewertungen
Blatt 01
3 Seiten
Timer Restweg
Noch keine Bewertungen
Timer Restweg
1 Seite
Formelsammlung
Noch keine Bewertungen
Formelsammlung
15 Seiten
Architekturen Und Entwurf Von Rechnersystemen: 1. Teil: Die Hardware-Beschreibungssprache Bluespec
Noch keine Bewertungen
Architekturen Und Entwurf Von Rechnersystemen: 1. Teil: Die Hardware-Beschreibungssprache Bluespec
151 Seiten
Simulation Digitaler Schaltungen inVHDL
Noch keine Bewertungen
Simulation Digitaler Schaltungen inVHDL
102 Seiten
Armre4b de
Noch keine Bewertungen
Armre4b de
580 Seiten
Ueb 01
Noch keine Bewertungen
Ueb 01
3 Seiten
Tutorial 8
Noch keine Bewertungen
Tutorial 8
2 Seiten
Digitaltechnik Wintersemester 2024/2025 Hausaufgabe C: (Zu VL/UB 5+6)
Noch keine Bewertungen
Digitaltechnik Wintersemester 2024/2025 Hausaufgabe C: (Zu VL/UB 5+6)
12 Seiten
2021 IT Herbst Lösungserläuterungen Fachinformatiker AP1
Noch keine Bewertungen
2021 IT Herbst Lösungserläuterungen Fachinformatiker AP1
18 Seiten
Re4b de
Noch keine Bewertungen
Re4b de
720 Seiten
Timer Interrupt
Noch keine Bewertungen
Timer Interrupt
29 Seiten
Ex 10
Noch keine Bewertungen
Ex 10
2 Seiten
Musterprüfungen
Noch keine Bewertungen
Musterprüfungen
6 Seiten
CPU Terminplanung: Übungsaufgaben
Noch keine Bewertungen
CPU Terminplanung: Übungsaufgaben
6 Seiten
Folien Einfuehrungsveranstaltung已完成
Noch keine Bewertungen
Folien Einfuehrungsveranstaltung已完成
24 Seiten
Ueb 03
Noch keine Bewertungen
Ueb 03
2 Seiten
OS Fragen
Noch keine Bewertungen
OS Fragen
38 Seiten
Die Europäische Aktiengesellschaft (SE) PDF
Noch keine Bewertungen
Die Europäische Aktiengesellschaft (SE) PDF
62 Seiten
Schraubenschluessel Spanners Wrenches
Noch keine Bewertungen
Schraubenschluessel Spanners Wrenches
35 Seiten
LÃ Sungen Zu Mechanik (2), Teil 1
Noch keine Bewertungen
LÃ Sungen Zu Mechanik (2), Teil 1
13 Seiten
Fritzbox 7520 Service Card
Noch keine Bewertungen
Fritzbox 7520 Service Card
2 Seiten