IBM entwickelt für KI optimierte Chips

Im Rahmen des IBM EMEA Media Day im Schweizer IBM-Forschungszentrum in Rüschlikon traf ITWelt.at die Physikerin und IBM Fellow Heike Riel. Im Interview erzählt sie, was man eigentlich unter "KI-Chips" versteht und wie gegenwärtig der Stand der Forschung bei IBM in diesem Bereich aussieht. [...]

Heike Riel ist eine deutsche Physikerin und IBM Fellow. Sie forscht in den Bereichen Quantum Computing, Physik der künstlichen Intelligenz, Nanowissenschaften und Nanotechnologie. (c) IBM
Heike Riel ist eine deutsche Physikerin und IBM Fellow. Sie forscht in den Bereichen Quantum Computing, Physik der künstlichen Intelligenz, Nanowissenschaften und Nanotechnologie. (c) IBM

Was genau ist gemeint, wenn von KI-optimierten Chips die Rede ist?

Seit 2015 forschen wir an energieeffizienteren Chips, da KI sehr energiehungrig ist. Der Energieverbrauch beim Training von Modellen hat seit der Einführung von Deep Learning exponentiell zugenommen. Dies liegt an den enormen Anforderungen an Flops (Rechenoperationen pro Sekunde), die für das Training benötigt werden. Das komplette Design der Chips für unsere Z- und W-Systeme stammt von uns, obwohl wir sie nicht mehr selbst produzieren.

Warum ist Energieeffizienz bei KI so wichtig?

Der wachsende Hunger nach leistungsfähigen KI-Modellen führt zu einem exponentiellen Anstieg des Energieverbrauchs. Besonders der Austausch von Daten zwischen Speicher und Logik in der klassischen Von-Neumann-Architektur verbraucht viel Energie. Wir arbeiten daran, diese ineffizienten Wege zu verkürzen, indem wir Speicher und Logik näher zusammenbringen. Unsere Tellum-Chips, die seit zwei Jahren in unseren Systemen verwendet werden, sind ein Beispiel für diese Optimierung.

Können Sie konkrete Einsparungen bei der Energie durch solche Chips nennen?

Das hängt stark von der Anwendung ab. Eine einfache Google-Suche oder der Einsatz von KI verdoppelt bis verdreifacht den Energieverbrauch. Beim Training neuer Modelle verdoppelt sich der Energiebedarf derzeit etwa alle sechs Monate. Das könnte uns an einen kritischen Punkt bringen, da der Energiebedarf möglicherweise den globalen Bedarf übersteigen könnte.

Wie begegnen Sie diesem Problem?

Wir haben eine Roadmap, die Lösungen wie verbesserte Transistor-Designs und spezialisierte Chips vorsieht. Statt Chips zu entwickeln, die alles können, spezialisieren wir sie auf spezifische Aufgaben wie etwa die Betrugserkennung bei Debitkartentransaktionen. Diese Chips können extrem effizient sein, da sie auf eine Funktion optimiert sind.

Wann können wir mit marktreifen Chips rechnen?

Wir haben bereits erste Generationen solcher Chips in unseren Z-Systemen im Einsatz. Die nächste Generation, die auch in einer AIU (Artificial Intelligence Unit) integriert ist, befindet sich in Entwicklung. Erste Anwendungen wie bei einem Schweizer Unternehmen sind vielversprechend. Der Fokus liegt darauf, Anwendungen und Hardware optimal aufeinander abzustimmen.

Wie unterscheiden sich Chips für Training und Inferenz?

Inferenz-Chips führen Berechnungen basierend auf vorab trainierten Modellen durch, während Trainings-Chips wesentlich höhere Anforderungen an Präzision und physikalisches Verhalten haben. Beide Ansätze werden weiterhin benötigt, ergänzt durch CPUs für allgemeine Softwarelösungen.

Gibt es Ansätze, die das menschliche Gehirn nachahmen?

Ja. Sogenannte Spiking Neural Networks (auf deutsch gepulste, neuronale Netze) simulieren die Funktionsweise des Gehirns und eignen sich besonders für Anwendungen wie die Bilderkennung. Diese Technik ist extrem spezialisiert, schnell und energieeffizient. Unsere neuesten Iterationen basieren auf diesen Prinzipien.

Welche Rolle spielt Quantum Computing in diesem Kontext?

Quantum Computing ergänzt klassische Ansätze, indem es komplexe Berechnungen schneller und energieeffizienter ausführt. Unsere Aufgabe ist es, beide Technologien so zu kombinieren, dass sie sicher, kostengünstig und energieeffizient arbeiten.

Die Technik hinter dem KI-Chip

IBM Research beschäftigt sich damit, wie KI-Berechnungen optimiert und effizienter gestaltet werden können. Ein vielversprechender Ansatz ist analoges In-Memory-Computing, oder einfach analoge KI, bei dem grundlegende Funktionsweisen neuronaler Netzwerke, wie sie in echten Gehirnen stattfinden, übernommen werden. In menschlichen Gehirnen, wie auch denen vieler anderer Tiere, bestimmt die Stärke der Synapsen die Kommunikation zwischen den Neuronen. Bei analogen KI-Systemen werden diese synaptischen Gewichte lokal in den Leitwerten von resistiven Nanospeicherbausteinen wie dem Phase-Change-Memory (PCM) gespeichert. Es werden Multiply-Accumulate-Operationen (MAC) durchgeführt (das sind die dominierende Rechenoperation in Deep Neural Networks, DNNs), indem unter Ausnutzung von Schaltungsgesetzen die Notwendigkeit, ständig Daten zwischen Speicher und Prozessor zu senden, verringert wird. (Multiply-Accumulate ist eine Rechenoperation, bei der zwei Faktoren multipliziert und das Produkt zu einem fortlaufenden Summanden – dem Akkumulator – addiert wird.)

Um analoge KI zu verwirklichen, müssen zwei Herausforderungen überwunden werden: Diese Speicherarrays müssen mit einer Präzision rechnen können, die derjenigen bestehender digitaler Systeme entspricht, und sie müssen nahtlos mit anderen digitalen Recheneinheiten sowie einer digitalen Kommunikationsstruktur auf dem analogen KI-Chip verbunden werden können.

In einem in Nature Electronics veröffentlichten Paper hat IBM Research einen hochmodernen analogen Mixed-Signal-KI-Chip für die Ausführung einer Vielzahl von DNN-Inferenzaufgaben vorgestellt. Es ist der erste analoge Chip, der im Test bei KI-Aufgaben aus dem Bereich der Bilderkennung genauso gut abschneidet wie die digitalen Gegenstücke und dabei wesentlich energieeffizienter ist. Laut dem Paper kann analoges In-Memory-Computing (AIMC) dazu beitragen, die Energiekosten für KI-Computing zu senken.

Das IBM Research Team hat jetzt einen Multicore-AIMC-Chip in 14 nm komplementärer Metall-Oxid-Halbleitertechnologie mit einem integrierten Phasenwechsel-Speicher entwickelt und hergestellt. Der voll integrierte Chip verfügt über 64 AIMC-Kerne, die über ein On-Chip-Kommunikationsnetz miteinander verbunden sind. Hier sind auch die digitalen Aktivierungsfunktionen sowie weitere Verarbeitungseinheiten für CNNs (Convolutional Neural Network) und Long-Short-Term-Memory implementiert.

Der Chip wurde im Albany NanoTech Complex von IBM hergestellt. Jeder der 64 analogen In-Memory-Rechenkerne (oder „Tiles“, auf deutsch Kacheln), aus denen der Chip besteht, enthält ein 256 mal 256 großes Crossbar-Array aus synaptischen Einheitszellen. Kompakte, zeitbasierte Analog-Digital-Wandler sind in jeder Kachel integriert, um den Übergang zwischen der analogen und der digitalen Welt zu ermöglichen. Jede Kachel ist außerdem mit leichten digitalen Verarbeitungseinheiten ausgestattet, die einfache nichtlineare neuronale Aktivierungsfunktionen und Skalierungsoperationen durchführen.

Mit dem Chip haben IBM-Forscher die genaueste Studie über die Rechengenauigkeit des analogen In-Memory-Computing durchgeführt und eine Genauigkeit von 92,81 Prozent für den CIFAR-10-Bilddatensatz nachgewiesen. Laut IBM ist das der höchste Genauigkeitsgrad aller derzeit bekannten Chips mit ähnlicher Technologie.

In dem Paper hat das IBM Research Team auch gezeigt, wie sich analoges In-Memory-Computing nahtlos mit mehreren digitalen Verarbeitungseinheiten und einer digitalen Kommunikationsstruktur kombinieren lässt. Der gemessene Durchsatz pro Fläche für 8-Bit-Eingabe-Ausgabe-Matrix-Multiplikationen von 400 GOPS/mm2 des Chips ist mehr als 15 Mal höher als bei bisherigen Multi-Core-In-Memory-Computing-Chips auf der Basis von resistivem Speicher, wobei eine vergleichbare Energieeffizienz erreicht wird.
IBM geht davon aus, dass diese Beschleuniger in Verbindung mit dem ausgefeilten hardwarebasierten Training, das das Unternehmen in den letzten Jahren entwickelte, in den kommenden Jahren eine softwareäquivalente Genauigkeit neuronaler Netzwerke für eine Vielzahl von Modellen liefern werden.


Mehr Artikel

Udo Würtz, Fellow und Chief Data Officer, Fujitsu European Platform Business (c) Fujitsu
News

Fujitsu Private GPT: Die Kontrolle bleibt im Haus

Mit der zunehmenden Verbreitung generativer KI-Lösungen stehen Unternehmen vor neuen Herausforderungen. Datenschutz, Kostenkontrolle und regulatorische Anforderungen rücken in den Fokus. Fujitsu hat mit „Private GPT“ eine Lösung entwickelt, die speziell auf die Bedürfnisse von Unternehmen zugeschnitten ist und höchste Sicherheitsstandards erfüllt. ITWelt.at hat darüber mit Udo Würtz, Fellow und Chief Data Officer, Fujitsu European Platform Business, gesprochen. […]

News

Cyber-Immunität statt reaktive Maßnahmen

Das Konzept der „Cyber Immunity“ beschreibt IT- und OT-Systeme, die aufgrund speziellerer Entwicklungsmethoden und architektonischer Anforderungen „secure-by-design“ sind und über eine eingebaute Widerstandsfähigkeit gegenüber Cyberangriffen verfügen. […]

News

42 Prozent der Österreicher:innen sind gestresst im Job 

41,5 Prozent der Arbeitnehmer:innen sind bei der Arbeit gestresst. Zudem sagt in einer Studie von kununu nur rund jede dritte angestellte Person (35,7 Prozent) in Österreich, dass ihr Arbeitsplatz eine gesunde Work-Life-Balance sowie das mentale oder körperliche Wohlbefinden unterstützt oder aktive Pausen fördert. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*