Wo steht die künstliche Intelligenz heute?

Es gibt heute nur mehr wenige neue Produkte im IT-Umfeld, die nicht "intelligent", "clever" oder "smart" sind. Die aktuelle Entwicklung bei Schachprogrammen – als anschauliches Beispiel – legt die Vermutung nahe, dass die KI-Reise erst begonnen hat. [...]

Demis Hassabis, Mitgründer und CEO von DeepMind. (c) DeepMind

Gerade als im Dezember die internationale Schachelite beim Turnier „London Chess Classic 2017“ zusammensaß – darunter der regierende Weltmeister Magnus Carlsen und der ehemalige Champion Viswanathan Anand –, platzte die Bombe: Die Google-Tochter DeepMind veröffentlichte unter dem Namen „Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm“ einen 19-seitigen Bericht, der nicht nur in die Schachgeschichte eingehen wird, sondern auch einen Meilenstein in der Entwicklung der Künstlichen Intelligenz bildet.

Das von dem in London ansässige Unternehmen DeepMind entwickelte Programm AlphaZero hat in einem über 100 Partien laufenden Vergleichskampf mit dem stärksten Schachprogramm der Welt namens Stockfish 28 Spiele gewonnen und den Rest remisiert, so der Bericht. Einer der verblüffenden Aspekte dieses Kräftemessens: AlphaZero hat sich die Geheimnisse des Schachspiels innerhalb von vier Stunden selbst angeeignet. Der einzige menschliche Input bestand in der Programmierung der einfachen Schachregeln und der Zurverfügungstellung von Millionen Schachpartien, die das System mit Hilfe von maschinellem Lernen selbstständig analysierte.

Der zweite Aspekt, der für ungläubiges Kopfschütteln sorgte, war die Art und Weise, mit der AlphaZero seine Gewinnpartien führte. Der Gegner wurde regelrecht an die Wand gespielt – und das mit Strategien, die man von Schachprogrammen bis dato nicht gekannt hatte. Die Reaktionen der menschlichen Schachelite waren entsprechend enthusiastisch: „Ich habe immer darüber nachgedacht, wie es wohl sein würde, wenn eine überlegene Spezies auf der Erde landen und uns zeigen würde, wie sie Schach spielten. Jetzt weiß ich, wie sich das anfühlt“, meinte etwa Großmeister und Magnus-Carlsen-Sekundant Peter Heine Nielsen.

Schachprogramme als KI-Speerspitze

Schachprogramme sind schon seit langer Zeit ein anschaulicher Gradmesser für die Fortschritte in Sachen Künstlicher Intelligenz. Als offizielles Ende der menschlichen Überlegenheit gilt der Vergleichskampf 1996/97, in dem der damalige Weltmeister gegen den Supercomputer DeepBlue von IBM den Kürzeren zog. Seit dem haben sich die Programme rasant weiterentwickelt, was unter anderem dazu führte, dass bei der Analyse von Schachpartien heute zwischen „menschlichen Zügen“ und „maschinellen Zügen“ unterscheidet, die gleichsam außerhalb der menschlichen Vorstellungskraft liegen. Der gemeinsame Nenner traditioneller Schachprogramme besteht beispielsweise in der Schnelligkeit.

So analysiert das bereits erwähnte Programm Stockfish, das bis vor kurzem als das Maß aller Dinge galt, 70 Millionen Positionen pro Sekunde. Zum anderen bauen diese Programme auf dem menschlichen Wissen auf, das sich in den 600 Jahren Schachgeschichte angesammelt hat. Das betrifft etwa die Eröffnungen und ihren Varianten, von denen die einen aussichtsreicher gelten als andere. Endspieldatenbanken helfen, die Erfolgstatiken bei wenigen Figuren am Brett zu finden.

Menschliches Knowhow spiegelt sich auch in der Beurteilung von Stellungen wider, die auf Aspekte wie Materialverteilung, Figurenwert, Raumgewinn, Dominanz über wichtige Felder, Bauernstruktur oder offenen Linien basiert. Die Evaluierung einer Stellung bestimmt, welchen Weg das Programm für die kommenden Züge einschlägt. Diese Kombination aus schierer Kraft – bekannt unter dem Namen „Brute Force“ – und menschlicher Erfahrung sorgte dafür, dass die besten Programme als unschlagbar galten. Das war wahr, bis AlphaZero auf der Bildfläche erschien.

Die schillernde Persönlichkeit im Hintergrund

Demis Hassabis, Mitgründer und CEO von DeepMind, bringt die passenden Voraussetzungen mit, um mit AlphaZero einen Meilenstein in der Schachgeschichte zu setzen. Er gehörte etwa zu den besten Jugendschachspielern der Welt, mit 17 programmierte er das millionenfach verkaufte Spiel „Theme Park“, Studien am MIT und in Havard formten ihn zu einem erfolgreichen Informatiker und Neurowissenschafter. Im Jahr 2010 gründete Hassabis das Unternehmen DeepMind, das mit dem Ziel antrat, „Intelligenz zu verstehen“. Erste Schlagzeilen erregte DeepMind, das 2014 von Google übernommen wurde, mit AlphaGo, dem ersten Programm, das unter Turnierbedingungen einen professionellen Go-Spieler schlagen konnte. 2017 folgte AlphaZero, das die Welt des Schachs auf den Kopf stellt – und das ohne zuvor wie üblich mit Eröffnungs- bzw. Endspieltheorien oder mit Stellungsbewertungen gefüttert worden zu sein.

AlphaZero ging quasi jungfräulich – tabula rasa – an die Sache heran. Die genannten Aspekte, die zentral für das Spiel auf höchstem Niveau sind, hat sich AlphaZero in wenigen Stunden selbst beigebracht. Die Überlegenheit, die das KI-Monster aus London gegenüber dem traditionellen Programm Stockfish an den Tag legte, zeigt sich am anschaulichsten an den sogenannten positionellen Qualitätsopfern, die außerhalb des strategischen Grundgerüsts seiner konventionellen Kollegen liegen. Hier wird eine Figur gegen eine Figur mit einem niedrigeren Wert getauscht oder einfach ein Bauer hergeschenkt, ohne aber daraus wie bei sogenannten taktischen Opfern einen unmittelbaren Nutzen ziehen zu können. Man geht also bewusst eine (vermeintliche) Verschlechterung ein.

Die Vorteile dieses Opfers zeigen sich, wenn überhaupt, erst in einem viel späteren Stadium des Spiels – eine Strategie, die zutiefst menschlich ist und mehr mit Instinkt als mit kühler Kalkulation zu tun hat. Als Google-Tochter sitzt DeepMind an der Quelle fortschrittlicher KI-Hardware. Während Hersteller wie NVIDIA bei der Beschleunigung von KI-Systemen auf GPUs setzen, hat Google dafür sogenannte Tensor Processing Units (TPUs) entwickelt, die seit 2015 für Google Services verwendet werden und auch schon für AlphaGo zum Einsatz kamen. Die Chips sind auf die Besonderheiten von maschinellem Lernen ausgelegt und sollen etwa das Rechnen mit verringerter Präzision erleichtern. Denn absolute Genauigkeit ist bei der Abschätzung von Wahrscheinlichkeiten oft nicht nötig.

Damit erreicht man im Vergleich zu traditioneller Hardware mehr Operationen pro Chip. In Zahlen: Vergleichstests auf dem Feld neuronaler Netzwerke zeigten, dass TPUs der ersten Generation um den Faktor 15 bis 30 schneller sind als CPUs und GPUs. Bei der Energieeffizienz beträgt der Faktor 30 bis 80. Während die erste TPU-Generation für die Anwendung neuronaler Netzwerke ausgelegt ist, beschleunigt die zweite Generation auch das Training dieser Netzwerke. Diese besitzen eine Rechenleistung von 180 TFLOPS, zusammengeschaltet kommen sie auf 11,5 PFLOPS. Für den Schaukampf AlphaZero gegen Stockfish kamen schlappe 5.000 TPUs der ersten Generation und 64 TPUs der zweiten Generation zum Einsatz, so der Bericht von DeepMind. Das macht die kurze Trainingszeit und das überlegene Spiel gegenüber dem Konkurrenten, der auf traditioneller Hardware lief, schon greifbarer.

Eine weitere Besonderheit der DeepMind-KI ist, dass sie nicht nur wie üblich auf neuronale Netze setzt, sondern darüber hinaus einen Kurzzeitspeicher verwendet, um die Fähigkeiten des menschlichen Gedächtnisses zu simulieren. Mit diesem Kurzzeitgedächtnis können unter anderem neue Informationen mit bereits gespeicherten Daten verglichen und Zusammenhänge hergestellt werden. Die Krone des DeepMind-Systems bildet der Algorithmus, der nicht nur dafür sorgt, dass das Programm ohne menschlichen Input selbstständig lernt, sondern dabei auch höchst unterschiedliche Spiele meistern kann: Bei Go und Schach kam ein und derselbe Alogrithmus („General Reinforcement Learning Algorithm“) zum Einsatz, der so intelligent agiert, dass AlphaZero mit 80.000 Evaluierungen pro Sekunde auskommt, während sein Brute-Force-Kontrahent Stockfish im selben Zeitraum 70 Millionen Stellungen analysiert – mit dem bekannt bescheidenen Ergebnis.

Für die Schachwelt bedeutet das unvergleichliche Auftreten von AlphaZera unter anderem, dass Eröffnungen, die über Jahrzehnte und sogar Jahrhunderte als solide galten, neu überdacht werden müssen.

Was lernen wir daraus?

Stockfish und seine Kollegen des traditionellen Lagers stehen stellvertretend für eine Welt, die Künstliche Intelligenz auf ihre Fahnen geschrieben hat – von der „smarten“ Waschmaschine und dem Sprachassistenten, der in Wahrheit nicht mehr „versteht“ als ein Kleinkind, bis eben zu Programmen, die mit der Brute-Force-Methode Intelligenz simulieren – aus heutiger Sicht mehr schlecht als recht. Mit AlphaZero hat eine völlig neue Qualität die KI-Bühne betreten. Denn hier kommt – neben dem massiven Einsatz von KI-spezifischer Hardware – ein Aspekt zum Vorschein, der in der Diskussion, was Künstliche Intelligenz und Intelligenz generell ausmachen, gerne vernachlässigt wird: Gemeint ist die Intuition. „Menschen sind im Grunde Intuitionsmaschinen, und unser rationales (und bewusstes) Selbst ist nur eine Simulation“, schreibt etwa Carlos E. Perez in seinem Blog „AlphaZero: How Intuition Demolished Logic“.

Man mag einwenden, dass es ein leichtes sei, in einem geschlossenen System wie Go und Schach mit Intelligenz zu brillieren, auf freier Wildbahn sehe die Sache ganz anders aus. Genau das liegt in der Intention von DeepMind: Die Erkenntnisse, die sie in der Spielewelt gewonnen haben, nutzen sie zunehmen für komplexe Aufgaben wie die Entwicklung neuartiger Medikamente. Der DeepMind-CEO Demis Hassabis selbst hat diese Transformation durchschritten: Vom einstigen Programmierer des Videospiels „Theme Park“ hin zum Neurowissenschafter und Vater von AlphaZero.

Dieser Artikel, verfasst von Wolfgang Franz, ist ursprünglich in transform! 1-2/2018 erschienen, dem Magazin für den digitalen Wandel.