0% fanden dieses Dokument nützlich (0 Abstimmungen)

66 Ansichten11 Seiten

Ki 32 42

Hochgeladen von

MohamedAdel

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

0% fanden dieses Dokument nützlich (0 Abstimmungen)

66 Ansichten11 Seiten

Ki 32 42

Hochgeladen von

MohamedAdel

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

36 A Technologie

1. Hardware für KI

Markus Schürholz, Eike-Christian Spitzner

Die KI ist bereits seit Jahrzehnten ein Thema in der Forschung, wobei die Kon-
ferenz „Dartmouth Summer Research Project on Artificial Intelligence“ im Jahr
1956 als Startpunkt systematischer Forschungsanstrengungen gilt. Den wirk-
lichen Durchbruch brachte allerdings erst in den vergangenen Jahren der Ein-
satz von künstlichen neuronalen Netzen (KNN) mit Methoden des tiefen Ler-
nens (Deep Learning, DL), welche rudimentär Abläufe im Nervensystem nach-
bilden (siehe auch Einleitung Teil A). Wichtige Treiber sind aber nicht nur die
Konzepte der KNN, sondern vor allem auch die Entwicklung der Rechentech-
nik, auf der entsprechende Verfahren ausgeführt werden. Während man zu
Beginn auf leistungsfähige Allzweckprozessoren (central processing unit, CPU)
zurückgriff, werden seit einigen Jahren vorrangig Prozessoren verwendet, die
ursprünglich für Grafikkarten zur Bildausgabe gedacht waren (graphics pro-
cessing unit, GPU). Aktuell werden diese zunehmend zu Spezialprozessoren
(application-specific integrated circuit, ASIC) für KI-Anwendungen weiterent-
wickelt. Zusätzlich verfolgt man den Ansatz, die Struktur von KNN direkt in
der Architektur eines Prozessors abzubilden (neuromorphe Hardware). Dabei
sind erste Versuche erfolgversprechend.

Um die Entwicklung der Hardware für KI-Anwendungen besser einordnen zu kön-

nen, ist es zunächst hilfreich sich anzusehen, welche Berechnungen bei der Nutzung
von KNN mit DL-Ansätzen durchgeführt werden. Hierbei muss man noch klar zwi-
schen dem Anlernen des KNN (Training) und seinem späteren Einsatz (Inference)
unterscheiden, wobei ersteres sehr rechenaufwendig ist. Die in diesem Beitrag
beschriebene Hardware dient insbesondere der Beschleunigung des Trainings. Im
Prinzip bestehen KNN aus einzelnen konzeptionellen Neuronen, die in bestimmten
Schichten angeordnet sind. Bei mehrschichtigen Netzwerken ist die erste Schicht die
Eingabeschicht, die Daten entgegennimmt. Die letzte Schicht, welche das Ergebnis
liefert, ist die Ausgabeschicht. Gibt es zwischen Ein- und Ausgabeschicht weitere
Schichten (Hidden Neurons), wird das neuronale Netzwerk deutlich leistungsfähiger,
und man spricht von DL. Zwischen den einzelnen Schichten bestehen Verbindungen
zwischen Neuronen, die das eigentliche Netzwerk bilden. Diese Verbindungen haben
verschiedene Strukturen, nach denen neuronale Netze auch klassifiziert werden kön-
nen (siehe auch Einleitung Teil A „Entwicklungswege zur KI“). Ein einfacher Fall ist
dabei ein Feedforward-Netz, in dem jedes einzelne Neuron einer Schicht über Verbin-

V. Wittpahl (Hrsg.), Künstliche Intelligenz,

DOI 10.1007/978-3-662-58042-4_2, © Der/die Autor(en) 2019
iit-Themenband – Künstliche Intelligenz 37

dungen die Informationen den Neuronen der nächsten Schicht senden, jedoch nicht
zurücksenden kann.

Das eigentliche „Wissen“ des Netzes steckt, entsprechend einem biologischen neu-
ronalen Netz, in der Gewichtung der einzelnen Verbindungen zwischen den künstli-
chen Neuronen. Diese Struktur muss zunächst erzeugt werden, das Netz wird also
angelernt. Eine gängige Methode hierfür ist das Überwachte Lernen (Supervised
Machine Learning). Dabei trainiert man das Netz mit bekannten Eingangsdaten
sowie Ausgangsdaten und stellt die Gewichtung der einzelnen Verbindungen so ein,
dass Fehler am Ausgang minimal ausfallen. So kann ein neuronales Netz zum Beispiel
trainieren, auf Bildern Hunde und Katzen zu unterscheiden, indem man am Eingang
Bilder verwendet, von denen bekannt ist, welche der beiden Tierarten darauf zu
sehen ist (Wert am Ausgang). Die Trainingsphase ist abgeschlossen, wenn das neu-
ronale Netz mit unbekannten, nicht für das Training verwendeten Daten eine Fehler-
rate erreicht, die unter einem vorher festgelegten und der Anwendung angemesse-
nem Wert liegt. Grundsätzlich kann man sagen, dass ein neuronales Netz mit mehr
Schichten und mehr Neuronen, zusammen mit möglichst vielen Trainingsdaten, the-
oretisch die besten Resultate erzeugt, gleichzeitig aber mit der Anzahl der Neuronen,
der Anzahl der Schichten und der Menge an Trainingsdaten der Rechenaufwand
erheblich steigt. Diese Berechnungen können auf unterschiedliche Art und Weise in
Software umgesetzt werden. Wichtig dabei ist jedoch, dass die Berechnungen in der
Regel so implementiert sind, dass mathematisch hauptsächlich Matrixmultiplikatio-
nen und Vektoradditionen durchgeführt werden. Im Folgenden wird am Beispiel der
Matrixmultiplikation gezeigt, warum dies einen entscheidenden Einfluss darauf hat,
welche Hardware für KI-Anwendungen besonders effizient ist.

Matrix A multipliziert mit Matrix B ergibt dabei eine neue Matrix C (siehe Abbildung
1.1). Die vier Elemente der Ergebnismatrix C werden dabei unabhängig aus Elemen-
ten der Matrizen A und B berechnet und enthalten keine unmittelbaren Abhängig-
keiten untereinander. Das heißt, die Matrixmultiplikation kann sehr einfach in vier
Rechnungen aufgeteilt werden, die nicht aufeinander aufbauen und aus diesem
Grund gleichzeitig ausgeführt werden können, ohne auf ein anderes Zwischenergeb-

Abbildung 1.1: Multiplikation zweier Matritzen

38 A Technologie

nis warten zu müssen. Jede einzelne Rechnung besteht dabei nur aus einer Addition
zweier Multiplikationen, zum Beispiel A11B11 + A12B21, wobei die beiden Multiplikati-
onen auch gleichzeitig ausgeführt werden können, um in einem zweiten Schritt
addiert zu werden. Die auf den ersten Blick recht aufwendige Multiplikation zweier
Matrizen lässt sich so in viele einfache Teile zerlegen. Es wird deutlich, dass in einem
ersten Schritt acht Multiplikationen gleichzeitig und in einem zweiten Schritt vier
Additionen gleichzeitig ausgeführt werden können. Insgesamt lässt sich diese Rech-
nung also sehr gut parallelisieren, was wiederum der entscheidende Punkt für die
Wahl der Hardware ist. Zur Verfügung stehen dafür im Allgemeinen Universalprozes-
soren (CPU), Beschleunigerkarten, die im Wesentlichen auf Grafikprozessoren basie-
ren (GPU), und anwendungsspezifische Schaltungen (ASIC).

Aktuelle Hardware-Lösungen

Die meisten heute verwendeten Universalprozessoren, wie beispielsweise die Haupt-

prozessoren in allen gängigen Computern wie auch Mobilgeräten und Servern,
basieren grundlegend auf einer Architektur, die John von Neumann im Jahr 1945
beschrieb und die auch nach ihm benannt ist (von-Neumann-Architektur). Kennzei-
chen dieser Architektur ist ein gemeinsamer, zentraler Speicher für Daten und Inst-
ruktionen. Dies ist konzeptionell sehr effizient, da möglichst leistungsfähige Rechen-
werke die Programme sequenziell, also Schritt für Schritt, abarbeiten sollen. Opti-
miert ist ein solcher Prozessor für aufeinander aufbauende, komplexe Berechnungen,
nicht jedoch für parallelisierbare Aufgaben. Dies gilt grundsätzlich, ist heute jedoch
nur noch eingeschränkt gültig, da sich die Entwicklung der CPUs in den vergangenen
Jahrzehnten ein Stück weit von den Ursprüngen entfernt hat. Moderne CPUs verfü-
gen über hohe Taktraten und eine hohe Rechenleistung pro Takt, und durch Befehlser-
weiterungen sind sie in der Lage, auch komplexere Berechnungen in einem oder sehr
wenigen Schritten auszuführen. Zudem ist mit diesen modernen CPUs inzwischen
auch ein paralleles Abarbeiten mehrerer Aufgaben möglich, da sie mehrere Prozess-
orkerne (in Smartphones aktuell bis zu 10, in Serverprozessoren 32 und mehr) bein-
halten und Technologien wie SMT (simultaneos multithreading) dies unterstützen –
eine Technik, die es erlaubt, im begrenzten Umfang zwei Aufgaben auf demselben
Prozessorkern auszuführen. Moderne CPUs sind also sehr leistungsfähig, vielseitig
und können komplexe Probleme schnell bearbeiten. Für Rechnungen, die massiv par-
allelisiert werden können und aus eher einfachen Teilaufgaben bestehen, ist eine
CPU jedoch weiterhin eher ungeeignet. Die Teilschritte werden zwar sehr schnell
ausgeführt, die Anzahl der parallel ausgeführten Aufgaben ist jedoch begrenzt. Die
große Rechenleistung der einzelnen Kerne und viele Optimierungen moderner Pro-
zessoren wie etwa Befehlssatzerweiterungen können kaum oder nicht genutzt wer-
den – mit der Folge, dass letztlich ein solcher Prozessor mit parallelen Rechenarbeiten
nicht optimal ausgelastet werden kann.
iit-Themenband – Künstliche Intelligenz 39

In den vergangenen Jahren wurde deshalb für solche Berechnungen immer häufiger
Hardware verwendet, die eigentlich für die Bildausgabe entwickelt wurde. Diese
basiert auf sogenannten GPUs. Die Leistungsfähigkeit dieser Grafikhardware ist,
besonders im Vergleich zu CPUs, in jüngster Zeit verhältnismäßig stark gestiegen.
GPUs bestehen aus ähnlichen Einzelbausteinen wie CPUs, unterscheiden sich in der
Gesamtarchitektur jedoch deutlich. Für die Berechnung einzelner Bildpunkte nutzten
GPUs früher kleine Rechenkerne, sogenannte Shader, die auf bestimmte Funktionen
optimiert waren und nur diese ausführen konnten. Es gab spezialisierte Shader,
beispielsweise um die Farbe, die Transparenz oder Geometrie einzelner Bildpunkte
oder Bildbereiche zu berechnen. Ob die einzelnen Funktionen jedoch genutzt
wurden, hing dabei stark von der Software ab. Um die Hardware generell besser
auslasten zu können, basieren moderne GPUs deswegen auf universellen Shadern,
sogenannten Unified Shader-Architekturen. Diese generalisierten Shader sind in der
Lage, je nach Bedarf jede der gewünschten Funktionen auszuführen. Bedingung ist,
dass jeder Shader direkt programmiert werden kann, was ihn zu einem kleinen
Universalprozessor macht. Diese Fähigkeit ermöglicht es nun, solche GPUs nicht
mehr nur zur Bildberechnung zu nutzen, sondern sie auch andere Berechnungen
anstellen zu lassen, was sie zu GPGPU („general purpose computation on graphics
processing unit“) werden lässt. Bei der Verwendung als GPGPU kann nun jeder
Shader als eine Art Universalrechenkern angesehen werden. Ein solcher Kern ist für
sich genommen im Vergleich zu einem CPU-Kern zwar erheblich schwächer und
deutlich niedriger getaktet, moderne GPUs verfügen jedoch über tausende ent
sprechender Shader, zwei Größenordnungen mehr als eine CPU. Ein weiterer Unter-
schied zur CPU besteht darin, dass der Speicher einer Grafikkarte um etwa einen
Faktor zehn schneller angebunden ist, was besonders bei großen Datenmengen von
Vorteil ist.

Eine dritte Möglichkeit Berechnungen durchzuführen, ist die Verwendung anwen-

dungsspezifischer integrierter Schaltkreise (ASIC). Hierbei handelt es sich im Gegen-
satz zu CPUs und in Grenzen GPUs nicht um Universalprozessoren, die prinzipiell in
der Lage sind, fast jede Berechnung durchzuführen. ASICs sind speziell für nur eine
bestimmte Aufgabe entworfene Schaltkreise. Die Grenze, an der ein modifizierter
oder ergänzter Universalprozessor aufhört und ein ASIC beginnt, ist dabei durchaus
fließend, für die Auswahl von KI-Hardware aber nicht zwingend wichtig.

Relevant für die KI-Anwendung ist zum einen Hardware, die auf Matrixrechenopera-
tionen spezialisiert ist. Derartige Hardware ist zurzeit in Form von speziellen, zusätz-
lichen Rechenkernen auf KI-Beschleunigern wie Nvidia Tensor Core (NVIDIA TESLA
V100 GPU ARCHITECTURE) oder ganzen darauf spezialisierten Prozessoren wie bei
Google, tensor processing unit, TPU verfügbar. Zum anderen gibt es auch Bestrebun-
gen für KI-Anwendungen, bei denen ein KNN komplett in Hardware abgebildet
werden soll, sogenannte neuromorphe Hardware.
40 A Technologie

Die aktuell gängigen Implementationen von KNN basieren darauf, dass im Wesentli-
chen sehr viele Matrixoperationen ausgeführt werden. Wie am Beispiel der Matrix-
multiplikation gezeigt, sind solche Aufgaben inhärent parallelisierbar, lassen sich also
in viele recht einfache Rechnungen zerlegen, die größtenteils gleichzeitig stattfinden
können. Von den Optimierungen moderner, auch leistungsfähiger CPUs mit ihrer
noch begrenzten Fähigkeit zum Parallelrechnen kann solch eine Anwendung aller-
dings kaum profitieren. Vielmehr können GPUs, ursprünglich für Grafikhardware
bzw. Beschleunigerkarten entwickelt, hier ihr Potenzial voll ausspielen. Dies ist auch
der wesentliche Grund dafür, dass viele KI-Anwendungen erst mit der Nutzung von
GPUs den Durchbruch schafften. Zuvor waren nur sehr teure Großrechner in der
Lage, entsprechende Berechnungen in angemessener Zeit durchzuführen. Großes
Zukunftspotenzial haben auch auf Matrixoperationen spezialisierte ASICs, wie sie
gegenwärtig schon nach und nach zum Einsatz kommen. Die Unterschiede in der
Effizienz sind dabei deutlich: So gibt Google für die eigens entwickelte TPU – ein
ASIC für Vektoroperationen – bei KI-relevanten Berechnungen etwa die 80-fache
Rechenleistung gegenüber einer CPU und die 30-fache Rechenleistung gegenüber
einer GPU an, wobei diese Werte auf die aufgenommene elektrische Leistung, also
pro Watt, normiert sind (Jouppi et al. 2017; Hot Chips 2017: A Closer Look At Goo-
gles TPU v2).

Die skizzierten Unterschiede in den Prozessor-Architekturen verdeutlichen, welch

wichtige Rolle der verwendeten Hardware für den Erfolg von KI-Konzepten zukommt.
Im folgenden Abschnitt wird deshalb ein genauerer Überblick gegeben, welche
Akteure hier mit welcher Hardware im Markt aktiv sind. Grundsätzlich lässt sich fest-
halten, dass sich die Rechentechnik für KI-Anwendungen immer weiter von der klas-
sischen von-Neumann-Rechenmaschine entfernt. Ein interessanter Aspekt der Ent-
wicklung, denn von Neumann hatte für sein Konzept der Rechenmaschine eigentlich
das zentrale Nervensystem des Menschen durchaus als ein Vorbild betrachtet und die
Gemeinsamkeiten und Unterschiede in seinem Buch „Die Rechenmaschine und das
Gehirn“ (Neumann 1960) schon vor Jahrzehnten präzise durchdacht.

Marktübersicht

Zahlreiche Hersteller bieten bereits für KI-Anwendungen optimierte Rechenhardware

an und es kommt stetig neue hinzu. Die erste große wirtschaftliche Erfolgsgeschichte
einer KI-Hardware ist mit dem Namen Nvidia Corporation verbunden: Das in Kalifor-
nien beheimatete Unternehmen wurde 1993 gegründet und begann mit der Kom-
merzialisierung von GPUs, die sich speziell für den Einsatz in der 3D-Computergrafik
eigneten und mit denen sich zahlreiche Aspekte computergenerierter Bilder parallel
rechnen ließen. Um die Jahrtausendwende hatte sich das Unternehmen in diesem
Bereich sehr erfolgreich am Markt positioniert. Es folgten Firmenübernahmen und
iit-Themenband – Künstliche Intelligenz 41

Expansion, u. a. auch durch den Zukauf der Berliner Mental Images GmbH im Jahr
2007. Im gleichen Jahr veröffentlichte Nvidia mit CUDA (Compute Unified Device
Architecture) eine Schnittstelle für seine Hardware, um GPGPU für das unspezifische
Abarbeiten parallelisierbarer Rechenaufgaben zu ermöglichen.

Das war der Startschuss für eine breite Nutzung der Grafikkarten für DL in einer gro-
ßen Forschungsgemeinschaft. Ebenfalls 2007 brachte Nvidia den ersten Prozessor
der Tesla-Reihe auf den Markt, dessen aktuelle Version Volta heißt. Die Strukturgröße
der Transistoren im Volta ist nur noch zwölf Nanometer groß, und der Chip umfasst
mehr als 5.000 Shader – ein großer Unterschied also zu den 28 Rechenkernen in
Intels aktueller CPU. Nvidia spricht in Hinblick auf die aktuellste Volta-Generation von
neuen „Tensor Cores“6. Der Begriff in der Benennung von Chips soll darauf hindeu-
ten, dass Matrixoperationen auf diesen Chips sehr effizient durchgeführt werden
können. Während bei CPUs die Leistungszuwächse (oft beschrieben durch das
„Mooresche Gesetz“) in den vergangenen Jahren von Generation zu Generation
eher kleiner wurden, konnten Nvidias GPUs in den aktuellsten Generationen enorme
Leistungssprünge verzeichnen.

Gegenüber CPUs, die sich seit vielen Jahren in PCs, Servern – heute meist Cloud
genannt – und mittlerweile insbesondere in Smartphones befinden, konnte Nvidia
mit seinen neuen KI-Chips ein völlig neues Marktsegment erschließen. Dies spiegelt
sich deutlich in der unterschiedlichen Entwicklung der Aktienkurse von Nvidia und
vom Hersteller klassischer CPUs Intel wider (siehe Abbildung 1.2). Und Nvidias KI-
Chips können auch in der Cloud als mächtige KI-Rechencluster genutzt werden. Inte-
ressanterweise arbeitet das Unternehmen für dieses Angebot mit Microsoft und dem
im Cloud-Computing dominanten Amazon zusammen. Im Rahmen seines „AI Lab“-
Programms kooperiert Nvidia mit wichtigen KI-Forschungseinrichtungen. Als einen
der beiden ersten europäischen Partner wählte Nvidia das Deutsche Forschungszen-
trum für Künstliche Intelligenz (DFKI) in Saarbrücken (Auel 2016).

Aufgrund der absehbar auch künftig dynamischen Marktentwicklung von KI für eine
steigende Anzahl von Anwendungen hat auch der Konzern Google, der sich die
Entwicklung von KI seit Unternehmensgründung als langfristiges Ziel auf die Fahnen
geschrieben hatte, eine eigene Hardware entwickelt. Deren Name TPU (Tensor Pro-
cessing Unit), orientiert sich an den Begriffen CPU und GPU. Die gegenwärtig bereits
in der zweiten Generation verfügbaren Google-TPUs dienen ebenfalls dazu, Matrix-

6
Da auch Google den Begriff Tensor für die eigene Hardware verwendet, sei kurz darauf
hingewiesen, dass es sich bei einem Tensor um ein mathematisches Objekt handelt, das in
einfachen Fällen eine Zahl oder ein Vektor ist, in komplexeren Fällen eine multidimensio-
nale Matrix.
42 A Technologie

Abbildung 1.2: Aktienpreise, der Preis vom 1. Januar 2012 entspricht 100, um das Verhält-
nis der Kurssteigerung abzubilden (eigene Darstellung basierend auf IDC, Thomson Reuters).

operationen effizient auszuführen. Die Chips wurden dabei so gestaltet, dass die von
Google entwickelte Open-Source-Softwarebibliothek TensorFlow effektiv damit ver-
wendet werden kann. Google stellt die TPUs im Rahmen des eigenen Cloud-Ange-
botes zur Verfügung; prominent eingesetzt wurde die Hardware bei dem 2016 Auf-
sehen erregenden Sieg von AlphaGo über den Go-Spieler Lee Sedol.

Während diese Entwicklungsansätze von KI-Hardware einerseits auf den lokalen Ein-
satz zielen und andererseits aufgrund ihrer Effizienz mit CPUs in Rechenzentren oder
Supercomputern konkurrieren, werden schon mobile Chips mit Recheneinheiten
ausgestattet, die ML unterstützen. Anwendungen fallen dabei in vielen Fällen in den
Bereich Computer Vision, in dem mit ML eindrucksvolle Erfolge erzielt werden konn-
ten. Microsoft setzt beispielsweise in seiner für Augmented bzw. Mixed Reality
Anwendungen entwickelten HoloLens eine Holo Processing Unit ein, die CPU und
GPU unterstützt – also eine HPU, der allgemeinen Bezeichnungstradition folgend.

Gegenwärtig weitverbreitet ist der sogenannte A11 Bionic Chip, der im iPhone 8
(Plus) und X eingesetzt wird. Die System-on-a-Chips (SoCs), die bisherige iPhone-
Generationen antrieben, enthielten bereits mehrere Prozessoren, neben einer CPU
und GPU auch gesonderte Prozessoren, die nur Bewegung erfassen und dabei beson-
ders energieeffizient sind. Seit dem A11 Bionic umfasst der Chip auch einen von
Apple als Neural Engine bezeichneten Prozessor, der für Machine Learning insbeson-
dere im Bereich Computer Vision angewendet wird. So ermöglicht diese Neural
Engine die nahezu in Echtzeit stattfindende Entsperrung des Smartphones durch
lokal ausgeführte Gesichtserkennung (Face ID). Und obwohl auch andere Hersteller
von Smartphone-Chips auf lokale KI-Hardware setzen, sticht die Neural Engine auch
deshalb hervor, weil sie dabei hilft, den von Apple favorisierten Entwicklungsansatz
zu unterstützen, Daten so weit wie möglich auf dem Endgerät des Nutzers zu belas-
iit-Themenband – Künstliche Intelligenz 43

sen und dort zu verarbeiten. Während bei Google eingestellte Bilder in die Cloud
geladen werden und erst dort Mustererkennung auf den Fotos stattfindet, ermög-
licht die Neural Engine eine effiziente Mustererkennung von Fotos auf dem iPhone.

Ebenfalls für den Bereich Computer Vision vorgesehen ist die Vision Processing Unit
(VPU) von Intel, die aktuell den Namen Myriad X trägt und auf Technologie von Movi-
dius fußt. Bevor dieses Unternehmen 2016 von Intel übernommen wurde, stellte es
die kleine und energieeffiziente Computer-Vision-Technologie für Drohnen von DJI
bereit. Mit einem Verbrauch im Bereich von einem Watt eignet sich der aktuelle
Myriad X für den mobilen Einsatz und kann Stereo-Bildquellen mit einer Auflösung
von 720 Pixel bei einer Frequenz von 180 Hertz auswerten. Im selben Jahr wie Movi-
dius übernahm Intel 2016 auch Nervana Systems, deren Technologie im aktuellen
Nervana Neural Network Processor (NNP) verbaut wird und für den nicht-mobilen
Einsatz konzipiert ist. Die beiden Übernahmen wirken wie ein Doppelschlag, um sich
gegen bereits etabliertere Konkurrenten am Markt zu positionieren. Darüber hinaus
übernahm Intel im Bereich Automotive das israelische Unternehmen Mobileye, das
spezifische Sensoren für Fahrassistenzsysteme anbietet. Der milliardenschwere Kauf
besiegelte den größten Exit der israelischen Technologiewirtschaft.

Neben Nvidia und den bekannten Riesen erforschen und entwickeln diverse Start-
ups eigene Lösungen von unterschiedlicher öffentlicher Transparenz, die hier nur
exemplarisch vorgestellt werden können. Zu nennen wäre beispielsweise Graphcore,
ein 2016 in Großbritannien gegründetes Start-up, das sein System Intelligence Pro-
cessing Unit (IPU) nennt und damit nach eigenen Angaben beeindruckende Perfor-
mances erreicht. Das 2013 in Beijing gegründete Unternehmen Bitmain Technologies
entwickelt ASICs, die für das Mining von Bitcoins optimiert sind. Bitmain weitet seine
Aktivitäten gerade in den Bereich ASICs für KI-Anwendungen aus und verfolgt dabei
technisch einen ähnlichen Ansatz wie Google. Die Lösung von Wave Computing
wird Dataflow Processing Unit genannt und ist für den Einsatz in Servern bzw. der
Cloud konzipiert. Wie konkurrenzfähig Start-ups wie Groq, Cerebras (beide USA)
oder Cambricon (China) in der nächsten Zeit sein werden, ist noch nicht abzuschät-
zen.

Ausblick

Die Entwicklung von KI-Anwendungen und deren praktische wie wirtschaftliche

Bedeutung werden auch künftig maßgeblich von Entwicklungen im Bereich der
Hardware abhängen. Die Adaption von KNN auf GPU-Hardware war in der Vergan-
genheit ein essenzieller Schritt, um deren Berechnung um Größenordnungen zu
beschleunigen und Zeitskalen zu erreichen, die eine praktische Anwendung erlau-
ben. Ähnliche Schritte sind auch in Zukunft zu erwarten. Mobile KI-Anwendungen,
bei denen neuronale Netze auf kleinen, mobilen Geräten ausgeführt werden, benö-
44 A Technologie

tigen Spezialhardware, die neben hoher Leistung auch eine sehr niedrige Leistungs-
aufnahme aufweist. Erste Entwicklungen zeigen sich etwa im Bereich der Mobiltele-
fone, wo KI-Koprozessoren verwendet werden, um beispielsweise die Qualität der
damit aufgenommen Fotos und/oder deren inhaltliche Auswertung zu verbessern.
Enorme Potenziale für die Zukunft lassen sich in aktuellen Forschungsergebnissen zu
neuromorphen Prozessoren erkennen. IBM zum Beispiel zeigt bereits die zweite
Generation seines Demonstrations-KI-Prozessors TrueNorth, welcher in Hardware
eine Million Neuronen mit 256 Millionen Synapsen implementiert (Merolla et al.
2014). Dieser Prozessor ist in der Lage, typische Aufgaben der Bildauswertung mit
hoher Genauigkeit und Geschwindigkeit durchzuführen, benötigt dafür aber im Ver-
gleich zum kommerziellen Stand der Technik Größenordnungen weniger elektrische
Energie (25 bis 275 Milliwatt) (Esser et al. 2016).

Die Hardware ist dabei deswegen so effizient, weil sie in Grenzen das KNN bereits in
ihrer Schaltung widerspiegelt. Einzelne Rechenkerne bilden die Neuronen, die unter-
einander vernetzt sind (Synapsen), wobei jeder dieser „neurosynaptischen“ Rechen-
kerne seinen eigenen Speicher hat. Hier zeigt sich in besonderem Maße die Abkehr
von klassischen Architekturen, bei denen Rechenwerke und Speicher klar getrennt
sind. Bei Berechnungen können jedoch alle Kerne mehr oder minder parallel arbeiten
und blockieren sich nicht gegenseitig bei der Abfrage von Gewichtungsinformatio-
nen, die bei klassischen Architekturen in einem gemeinsamen zentralen Speicher
liegen würden. Auch arbeiten die einzelnen Kerne nicht nach einem festen Takt,
sondern nur, wenn sie durch relevante Aktivität anderer Rechenkerne angeregt wer-
den, was die Effizienz erheblich verbessert und der Arbeitsweise des Gehirns ähnelt.
Perfekt ist diese Technik allerdings nicht. So kann der TrueNorth-Chip ein künstliches
neuronales Netzwerk nicht trainieren, sondern ist dabei auf klassische Hardware
angewiesen (Honey 2018). Auch können wegen der deutlich abweichenden Hard-
ware nicht alle Softwarewerkzeuge benutzt werden, welche sich in der Zwischenzeit
etabliert haben. Nichtsdestotrotz sind erste Ergebnisse zu neuromorpher Hardware
vielversprechend. Bevor es aber zu einer Verdrängung der zurzeit dominierenden KI-
Hardware auf Basis von Grafikprozessoren und zum Teil ASICs kommt, müssen
sicherlich noch einige Jahre Entwicklungsarbeit investiert werden. Unerwartete
Effekte, wie zum Beispiel die aktuelle Knappheit und der erhebliche Preisanstieg bei
Grafikprozessoren durch den Boom von Kryptowährungen wie Bitcoin und Ethereum
können die Geschwindigkeit der Entwicklung jedoch durchaus beeinflussen.

Betrachtet man die aktuellen Marktteilnehmer und die sich abzeichnenden Entwick-
lungen im Bereich der Hardware für KI-Anwendungen, so wird deutlich, dass Know-
how und Gewinne sich gegenwärtig in den USA konzentrieren und zusätzliche
Akteure in China sichtbar werden. Kommerzielle deutsche Angebote finden sich
gegenwärtig nicht. Dies ist eigentlich verwunderlich, denn in Deutschland sind mit
der Automobilindustrie und dem Maschinen- und Anlagenbau vielversprechende KI-
iit-Themenband – Künstliche Intelligenz 45

Anwenderbranchen stark verankert. Branchengrößen wie Bosch und Continental

setzen beispielsweise aktuell auf Chips von Nvidia. In der Grundlagenforschung zeigt
sich hingegen ein anderes Bild. An der Universität Heidelberg etwa hat die Gruppe
um den Physiker Karlheinz Meier den neuromorphen Hochleistungscomputer Brain-
ScaleS entworfen und realisiert, der vier Millionen Neuronen mit einer Milliarde Syn-
apsen in Hardware abbildet (Kerstin Sonnabend 2016; Schiermeier und Abbott
2016). Dieser Computer wird genutzt, um im Rahmen des Human Brain Projects der
Europäischen Union (Human Brain Project) Vorgänge im Gehirn zu simulieren.
46 A Technologie

Literatur
Auel, Kersten (2016): Deep Learning: Nvidia kooperiert mit dem DFKI. Online verfügbar unter
https://www.heise.de/ix/meldung/Deep-Learning-Nvidia-kooperiert-mit-dem-
DFKI-3247792.html, zuletzt geprüft am 18.07.2018.
Honey, Christian; Waldrop, Mitchell (2018): Wettrennen um das künstliche Gehirn. Online
verfügbar unter https://www.heise.de/tr/artikel/Wettrennen-um-das-kuenstliche-
Gehirn-3996587.html, zuletzt geprüft am 21.03.2018.
Esser, Steven K.; Merolla, Paul A.; Arthur, John V.; Cassidy, Andrew S.; Appuswamy, Rathina-
kumar; Andreopoulos, Alexander et al. (2016): Convolutional networks for fast, energy-
efficient neuromorphic computing. In: Proceedings of the National Academy of Sciences
of the United States of America 113 (41), S. 11441–11446. DOI: 10.1073/
pnas.1604850113.
Hot Chips (2017): A Closer Look At Google’s TPU v2. Online verfügbar unter http://www.
tomshardware.com/news/tpu-v2-google-machine-learning,35370.html, zuletzt geprüft
am 21.03.2018.
Human Brain Project. Online verfügbar unter https://www.humanbrainproject.eu/en/, zuletzt
geprüft am 21.03.2018.
Jouppi, Norman P.; Young, Cliff; Patil, Nishant; Patterson, David; Agrawal, Gaurav; Bajwa,
Raminder et al. (2017): In-Datacenter Performance Analysis of a Tensor Processing Unit.
In: CoRR abs/1704.04760.
Kerstin Sonnabend (2016): Vom Gehirn inspiriert, 24.03.2016. Online verfügbar unter http://
www.pro-physik.de/details/physiknews/9108261/Vom_Gehirn_inspiriert.html, zuletzt
geprüft am 21.03.2018.
Merolla, Paul A.; Arthur, John V.; Alvarez-Icaza, Rodrigo; Cassidy, Andrew S.; Sawada, Jun;
Akopyan, Filipp et al. (2014): Artificial brains. A million spiking-neuron integrated circuit
with a scalable communication network and interface. In: Science (New York, N.Y.) 345
(6197), S. 668–673. DOI: 10.1126/science.1254642.
Neumann, J. von (1960): Die Rechenmaschine und das Gehirn: Oldenbourg (Scientia Nova
Series). Online verfügbar unter https://books.google.de/books?id=msjK3xRMNkAC,
zuletzt geprüft am 21.03.2018.
NVIDIA TESLA V100 GPU ARCHITECTURE. Online verfügbar unter http://images.nvidia.com/
content/volta-architecture/pdf/volta-architecture-whitepaper.pdf, zuletzt geprüft am
21.03.2018.
Schiermeier, Quirin; Abbott, Alison (2016): Flagship brain project releases neuro-computing
tools. In: Nature 532 (7597), S. 18. DOI: 10.1038/nature.2016.19672, zuletzt geprüft am
21.03.2018.

Das könnte Ihnen auch gefallen

KI Hardware Praesentation
Noch keine Bewertungen
KI Hardware Praesentation
10 Seiten
AP1 Lernzettel
Noch keine Bewertungen
AP1 Lernzettel
125 Seiten
Zusammenfassung Microcontroller
Noch keine Bewertungen
Zusammenfassung Microcontroller
8 Seiten
Neuronale Netze
Noch keine Bewertungen
Neuronale Netze
5 Seiten
CPU Refarat
Noch keine Bewertungen
CPU Refarat
2 Seiten
Künstliche Neuronale Netzwerke in Der Fernerkundungsbezogenen Bildklassifikation
Noch keine Bewertungen
Künstliche Neuronale Netzwerke in Der Fernerkundungsbezogenen Bildklassifikation
54 Seiten
Goethe - Gymnasium - Pritzwalk - Künstliche Intelligenz - Einführung
Noch keine Bewertungen
Goethe - Gymnasium - Pritzwalk - Künstliche Intelligenz - Einführung
51 Seiten
DIGIP T 01 EinfuÌ Hrung
Noch keine Bewertungen
DIGIP T 01 EinfuÌ Hrung
28 Seiten
KI Mitschrift
Noch keine Bewertungen
KI Mitschrift
3 Seiten
Neuronale Netze
Noch keine Bewertungen
Neuronale Netze
31 Seiten
Hardware
Noch keine Bewertungen
Hardware
42 Seiten
KI - 06VL Ueberwachtes Lernen - Kuenstliche Neuronale Netze 1
Noch keine Bewertungen
KI - 06VL Ueberwachtes Lernen - Kuenstliche Neuronale Netze 1
64 Seiten
MLB All
Noch keine Bewertungen
MLB All
51 Seiten
KI Glossar
Noch keine Bewertungen
KI Glossar
7 Seiten
It's Him
Noch keine Bewertungen
It's Him
4 Seiten
tmps7xcg9dv HTML
Noch keine Bewertungen
tmps7xcg9dv HTML
2 Seiten
PLS KI-kompakt Hybride KI Final
Noch keine Bewertungen
PLS KI-kompakt Hybride KI Final
10 Seiten
Künstliche Intelligenz in Der IT-Ausbildung: Forum
Noch keine Bewertungen
Künstliche Intelligenz in Der IT-Ausbildung: Forum
16 Seiten
Künstliche Neuronale Netze - Methode Und Anwendung: Tawil, M
Noch keine Bewertungen
Künstliche Neuronale Netze - Methode Und Anwendung: Tawil, M
0 Seiten
GWIN Skript 7-9
Noch keine Bewertungen
GWIN Skript 7-9
119 Seiten
Essay Modell Von Neumann
Noch keine Bewertungen
Essay Modell Von Neumann
3 Seiten
020 Rechnersysteme I Online
Noch keine Bewertungen
020 Rechnersysteme I Online
58 Seiten
IKS
Noch keine Bewertungen
IKS
45 Seiten
01 Technische Grundlagend Der Informatik Einleitung
Noch keine Bewertungen
01 Technische Grundlagend Der Informatik Einleitung
38 Seiten
KI - Vortrag Deutsch 17.10.2022
Noch keine Bewertungen
KI - Vortrag Deutsch 17.10.2022
2 Seiten
Digitaltechnik: Winfried Gehrke Marco Winzker
Noch keine Bewertungen
Digitaltechnik: Winfried Gehrke Marco Winzker
715 Seiten
3 - Der Aufbau Von Rechnern
Noch keine Bewertungen
3 - Der Aufbau Von Rechnern
11 Seiten
KI-Studie Ansicht 201712
Noch keine Bewertungen
KI-Studie Ansicht 201712
64 Seiten
HQ Info 2
Noch keine Bewertungen
HQ Info 2
1 Seite
MASTERARBEIT Eva Huell
Noch keine Bewertungen
MASTERARBEIT Eva Huell
89 Seiten
KI-VortragDeutsch (Text) 17.10.2022
Noch keine Bewertungen
KI-VortragDeutsch (Text) 17.10.2022
3 Seiten
Cok - Vorgehensweise Zur Einführung Von KI-Projekten
Noch keine Bewertungen
Cok - Vorgehensweise Zur Einführung Von KI-Projekten
46 Seiten
Bauinfo Klausur Lernzettel PDF
Noch keine Bewertungen
Bauinfo Klausur Lernzettel PDF
25 Seiten
Zusammenfassung Mundliche Prufung 1
Noch keine Bewertungen
Zusammenfassung Mundliche Prufung 1
24 Seiten
Neurorobotik Master
Noch keine Bewertungen
Neurorobotik Master
4 Seiten
Was Ist KI Überhaupt
Noch keine Bewertungen
Was Ist KI Überhaupt
2 Seiten
Research Paper Ai Intro
Noch keine Bewertungen
Research Paper Ai Intro
2 Seiten
KI Praesentation
Noch keine Bewertungen
KI Praesentation
11 Seiten
KI Erklärungen Praesentation
Noch keine Bewertungen
KI Erklärungen Praesentation
7 Seiten
LBT1 - KA Nr.1 Vorbereitung
Noch keine Bewertungen
LBT1 - KA Nr.1 Vorbereitung
8 Seiten
LBS Datenaufzeichnung Und Büroautomatisierung Notizen
Noch keine Bewertungen
LBS Datenaufzeichnung Und Büroautomatisierung Notizen
26 Seiten
KI - 07 - 08 Ueberwachtes Lernen 3 - Tiefe Netze Und Faltungsnetze
Noch keine Bewertungen
KI - 07 - 08 Ueberwachtes Lernen 3 - Tiefe Netze Und Faltungsnetze
85 Seiten
Rechnertechnik VL 2
Noch keine Bewertungen
Rechnertechnik VL 2
42 Seiten
Suiifsdf
100% (1)
Suiifsdf
32 Seiten
Lego Braitenberg Vehicles
Noch keine Bewertungen
Lego Braitenberg Vehicles
191 Seiten
Notizen Zum Informatikunterricht Der 8. Klasse
Noch keine Bewertungen
Notizen Zum Informatikunterricht Der 8. Klasse
123 Seiten
Tugas 7 - Krisna Kasmara - 10322186 - 1ta05
Noch keine Bewertungen
Tugas 7 - Krisna Kasmara - 10322186 - 1ta05
3 Seiten
RMP AI WS23 13 Moderne Hardwarearchitekturen
Noch keine Bewertungen
RMP AI WS23 13 Moderne Hardwarearchitekturen
33 Seiten
ICT Vorprüfung
Noch keine Bewertungen
ICT Vorprüfung
4 Seiten
Basiswissen IT-Berufe
Noch keine Bewertungen
Basiswissen IT-Berufe
36 Seiten
1 Organisatorisches Und Perzeptronen
Noch keine Bewertungen
1 Organisatorisches Und Perzeptronen
20 Seiten
Von Neumann Konzept
Noch keine Bewertungen
Von Neumann Konzept
5 Seiten
Fraunhofer Studie ML 201809
Noch keine Bewertungen
Fraunhofer Studie ML 201809
56 Seiten
Aufbau Eines Computers Referat
Noch keine Bewertungen
Aufbau Eines Computers Referat
22 Seiten
RS2 23 Kap2 2
Noch keine Bewertungen
RS2 23 Kap2 2
12 Seiten
Redemittel Bewerbung
Noch keine Bewertungen
Redemittel Bewerbung
7 Seiten
Beschwerde Über Das Bewerbungstraining
Noch keine Bewertungen
Beschwerde Über Das Bewerbungstraining
2 Seiten
Kinder-Relativpronomen 7 10 11
100% (1)
Kinder-Relativpronomen 7 10 11
49 Seiten
Aniela Ahre
Noch keine Bewertungen
Aniela Ahre
1 Seite
Spiele
Noch keine Bewertungen
Spiele
1 Seite
Goethe - B1
50% (2)
Goethe - B1
7 Seiten
KI Glossar Praesentation
Noch keine Bewertungen
KI Glossar Praesentation
9 Seiten
Handbuch Bi
Noch keine Bewertungen
Handbuch Bi
71 Seiten
Final A2 - Intensive
Noch keine Bewertungen
Final A2 - Intensive
18 Seiten
Bilde Bitte Sätze Mit Weil Und Deshalb
Noch keine Bewertungen
Bilde Bitte Sätze Mit Weil Und Deshalb
1 Seite
0802 Propst 1 16 70
Noch keine Bewertungen
0802 Propst 1 16 70
33 Seiten
Mitschrieb
Noch keine Bewertungen
Mitschrieb
48 Seiten
Teilehandbuch XJF-XJF
Noch keine Bewertungen
Teilehandbuch XJF-XJF
28 Seiten
Weitere Wortarten. Präpositionen, Etc
100% (1)
Weitere Wortarten. Präpositionen, Etc
10 Seiten
MB322 Geschraubte Verbindungen Im Stahlbau
Noch keine Bewertungen
MB322 Geschraubte Verbindungen Im Stahlbau
40 Seiten
3vf Reveco Go Ffner 2 Blttrig Zentral
Noch keine Bewertungen
3vf Reveco Go Ffner 2 Blttrig Zentral
12 Seiten
Kayaba Gabeln Werkstatthandbuch - Off-Road-eng-61e529a6c44f0
Noch keine Bewertungen
Kayaba Gabeln Werkstatthandbuch - Off-Road-eng-61e529a6c44f0
64 Seiten

Ki 32 42

Hochgeladen von

Ki 32 42

Hochgeladen von

36 A Technologie

Markus Schürholz, Eike-Christian Spitzner

Um die Entwicklung der Hardware für KI-Anwendungen besser einordnen zu kön-

V. Wittpahl (Hrsg.), Künstliche Intelligenz,

Abbildung 1.1: Multiplikation zweier Matritzen

Die meisten heute verwendeten Universalprozessoren, wie beispielsweise die Haupt-

Eine dritte Möglichkeit Berechnungen durchzuführen, ist die Verwendung anwen-

Die skizzierten Unterschiede in den Prozessor-Architekturen verdeutlichen, welch

Zahlreiche Hersteller bieten bereits für KI-Anwendungen optimierte Rechenhardware

Die Entwicklung von KI-Anwendungen und deren praktische wie wirtschaftliche

Anwenderbranchen stark verankert. Branchengrößen wie Bosch und Continental

Das könnte Ihnen auch gefallen

36 A Technologie