Durchbruch auf dem Weg zur universellen Lernmaschine

Der 26-jährige österreichische KI-Forscher Julian Schrittwieser ist an Alpha Zero programmierend beteiligt.

Der neue Algorithmus Alpha Zero ist so generalisiert, dass er durch Selbstlernen gleich in drei Spielen quasi unbesiegbar wurde.

Wien/London – Dass auch ein Weltmeister wie Magnus Carlsen beim Schach gegen den Computer keine Chance mehr hat, ist ein alter Hut. Seit März 2016 ist klar, dass auch die besten Go-Spieler gegen eine gut trainierte Software chancenlos sind: Damals besiegte Alpha Go aus Googles Softwareschmiede Deep Mind den Spitzenspieler Lee Sedol ziemlich eindeutig.

Dieser Sieg sorgte für einiges Aufsehen, denn das rund 3.000 Jahre alte asiatische Spiel stellt spezielle, auch "intuitive" Anforderungen, die man für exklusiv menschlich hielt. Angesichts nahezu unbegrenzter Möglichkeiten für Züge ist nämlich viel kreatives Denken und Lernfähigkeit gefragt. Doch bei Deep Mind gab man sich mit dem Sieg nicht zufrieden.

Von Alpha Go zu Alpha Go Zero ...

Im vergangenen Jahr berichtete das Team von Deep Mind im Fachblatt "Nature" über einen weiteren Durchbruch: Die Weiterentwicklung Alpha Go Zero erlernte das Brettspiel Go ohne menschliche Referenzpartien, sondern trainierte sich selbst zu einer Spielstärke, die auch das Vorgängerprogramm Alpha Go locker besiegte. Dem Team um David Silver gehört auch der 26-jährige österreichische Informatiker Julian Schrittwieser an, der bereits im Rahmen seines Bachelorstudiums an der TU Wien im Jahr 2013 bei Google eingestiegen ist.

Während Alpha Go noch Millionen von Zügen von menschlichen Top-Spielern über Monate hinweg analysieren musste, um sein hohes Spielniveau zu erreichen, war das Deep-Mind-Team mit Alpha Go Zero einen anderen Weg gegangen: Es entwickelte ein System, das Go ohne Anschauungsmaterial von der Pike auf in hunderttausenden Spielen gegen sich selbst trainiert und auf sich alleine gestellt weiterentwickelt. Lediglich die Regeln des Spiels waren der Software vorher bekannt.

... zum allgemeineren Alpha Zero ...

Nun haben die Informatiker ihren Ansatz unter dem Namen Alpha Zero abermals verbessert, wie sie – diesmal im Fachblatt "Science" – berichten: "Wir haben den Algorithmus so generalisiert, dass eine Software mehrere Spiele lernen kann", erklärt Schrittwieser im Gespräch mit dem STANDARD: Alpha Zero erreichte auch im Schach, Shogi – einer japanischen Variante des Spiels – und Go innerhalb weniger Stunden ein derart hohes Niveau, dass es andere hoch entwickelte KI-Programme besiegte:

Die Spielergebnisse von Alpha Zero nach kurzer Zeit des Selbsttrainings gegen die besten Softwareprogramme in den jeweiligen Spielen.

"Alpha Zero lernt schrittweise, was ein gutes Spiel ausmacht, und evaluiert es eigenständig. In diesem Sinne ist es frei von den Einschränkungen, die die menschliche Sichtweise darauf mit sich bringt", so Deep-Mind-Chef Demis Hassabis in einem Statement. Er hoffe, dass der neue Spielstil des Programms Schachspieler auf der ganzen Welt inspirieren wird.

Vortrag von Deep-Mind-Chefentwickler David Silver über Alpha Go und Alpha Zero.

Der frühere Schachweltmeister Garri Kasparow, der selbst 1997 als erster amtierenden Weltmeister von dem IBM-Computer Deep Blue besiegt wurde, ortet in einem weiteren Statement im Spiel des Algorithmus gar Parallelen zu seinem Stil: "Ich kann meine Freude darüber nicht verbergen, dass es sehr dynamisch spielt – ähnlich wie ich."

Cover des im Jänner erscheinenden Buchs "Game Changer", das hunderte Schachpartien von Alpha Zero analysiert.

... zu einer universellen strategischen Lernmaschine

Für Hassabis ist die neue Version ein Schritt in Richtung der Vision, eine Software zu konstruieren, die "manche der komplexesten Probleme der realen Welt" lösen kann. In diese Richtung geht auch die Einschätzung von Klaus-Robert Müller von der TU Berlin, der an der Entwicklung nicht beteiligt war:

"Ich bin begeistert von der neuen Entwicklung Alpha Zero, die das Deep-Mind-Team präsentiert. Besonders interessant und beeindruckend erscheint mir, dass nur ein Typus Reinforcement-Lernalgorithmus alle diese komplexen Strategiespiele im Selbstspiel hervorragend meistert. Dies ist ein wichtiger erster Schritt hin zu einer universellen strategischen Lernmaschine."

In eine ähnliche Richtung geht auch die Einschätzung von Julian Schrittwieser, dem die Mitarbeit bei Deep Mind ein ausführliches Porträt im Magazin "Forbes" als eine der 30 interessantesten Persönlichkeiten Europas unter 30 Jahren in der Rubrik "Technologie" eintrug. Der junge KI-Forscher streicht noch einmal heraus, dass die neue Verallgemeinerung dieses Planungsalgorithmus nicht "spielerischer" Selbstzweck ist, sondern tatsächlich praktische Anwendungen haben soll: "Wir schauen, welche echten Probleme mit diesen Algorithmen zu lösen sind."

"Werkzeug" für die Wissenschaft

Schrittwieser kann sich etwa einen Einsatz in Bereichen wie der Mathematik oder der Physik vorstellen, wo weiter verbesserte Versionen der Software als Problemlöser eingesetzt werden könnten. Heißt das, dass womöglich auch die Forscher selbst der KI-Revolution zum Opfer fallen werden? Nein, ist Schrittwieser überzeugt, aber mit den neuen Algorithmen werden sie mächtigere "Werkzeuge" haben – "ganz ähnlich, wie das vor 50 Jahren die Taschenrechner waren". (Klaus Taschwer, 6.12.2018)

Künstliche Intelligenz