Bild nicht mehr verfügbar.

Alphago lernte nicht nur aus menschlichen Partien, sondern auch durch Millionen Spiele gegen sich selbst.

Zur Überraschung vieler Beobachter war das Match "Mensch gegen Maschine" im asiatischen Brettspiel Go schon nach drei der angesetzten fünf Partien entschieden. AlphaGo, der von Google entwickelte Algorithmus, hatte seinen menschlichen Kontrahenten – den weltbesten Spieler Lee Se-dol – besiegt. Erst in der vierten Partie konnte der Südkoreaner Ergebniskosmetik betreiben, musste sich im abschließenden Duell aber schon wieder geschlagen geben. 4:1 lautet das beeindruckende Endergebnis zugunsten des Computers.

Doch wie gelang es den Entwicklern, AlphaGo so weit zu bekommen, einen erfahrenen Menschen in einem enorm komplexen Brettspiel zu schlagen? Eine Antwort auf diese Frage ist, dass die Maschine sich eben nicht immer verhält, wie ein Profispieler. Das erklärte David Silver, der die Entwicklung der Software leitet, ausführlich gegenüber Wired.

Zug 37

Es ist der 37. Zug in der zweiten Partie zwischen Lee Se-dol und AlphaGo, der abseits des Gesamtergebnisses vor allem in Expertenkreisen wohl noch länger diskutiert werden wird. Niemand hatte damit gerechnet, dass die künstliche Intelligenz tun würde, was sie tat, hatte sie doch bis dahin so agiert, dass erfahrene Spieler den Move nachvollziehen konnten.

Nicht so diesen. "Das ist kein menschlicher Zug. Ich habe noch nie einen Menschen diesen Zug spielen sehen", kommentierte etwa Fan Hui verblüfft. "So schön", lobte er die Vorgangsweise von AlphaGo schließlich. Und er weiß, wovon er spricht, denn er selbst war als amtierender Europameister schon vergangenes Jahr gegen die Google-Software angetreten und 0:5 unterlegen gewesen. In den vergangenen Monaten war er als Berater für die Entwickler tätig.

AlphaGo Control Room

Chefentwickler Silver saß während jeder Partie im "AlphaGo Control Room". Dort hat er Einsicht in den Zustand der Computer, die das System antreiben, seine Berechnungen für den Ausgang der Partie und verschiedener Züge und Livekommentaren. Seine Perspektive sei spannend, erklärt er, denn oft stünden Einschätzungen der Kommentatoren und von AlphaGo in deutlicher Diskrepanz zueinander.

Als der Computer besagten Zug 37 spielte hatte Silver selbst genau so wenig Einblick in seine Entstehung, wie alle anderen Zuseher. Nach der Partie begab er sich jedoch auf Ursachenforschung, um zu verstehen, wie seine Maschine die unkonventionelle Aktion geplant hatte.

Mehrstufiger Lernprozess

Dabei ist es wichtig zu verstehen, wie AlphaGo seine Spiel-Skills entwickelt hat. Grundsätzlich erlernte die Software die Regeln über die Verwendung eines digitalen neuronalen Netzwerks, also eines Computersystems, das die Funktionsweise der Neuronen in biologischen Gehirnen imitiert. Technologie, die auch in anderen Bereichen – etwa Sprach- und Bilderkennung – schon zum Einsatz kommt.

Zuerst brachte man dem System durch das Füttern mit unzähligen aufgezeichneten Spielen das grundsätzliche Regelwerk bei. Danach ließ man unterschiedliche Versionen von AlphaGo Millionen mal gegen sich selbst antreten. Mit der Zeit lernte das System einzuschätzen, welche Züge am meisten Erfolg in Form von Territorialgewinn am Spielbrett versprachen. Auf dieser Basis begann die künstliche Intelligenz, eigene Strategien zu erfinden.

Die Spielzüge aus den Partien speiste man schließlich in ein weiteres neuronales Netzwerk ein, um die Fähigkeiten von AlphaGo zu verfeinern. So lernte das System, noch vorausschauender zu agieren und gleichzeitig auch Berechnungen darüber anzustellen, wie der Gegner vorgehen wird. Dies kombinierte man mit einem klassischen Wahrscheinlichkeitsansatz bezogen auf das Gesamtergebnis. Das System setzt also jedem Zug eine Berechnung voraus, in der es ermittelt, wie er sich auf seine Siegeschancen am Ende der Partie auswirkt.

"Unmenschliche" Vorgangsweise

Für Zug 37 hatte AlphaGo errechnet, dass ein menschlicher Kontrahent diesen nur in einem von zehntausend Fällen der aktuellen Spielsteinkonstellation am Brett spielen würde. Anders ausgedrückt: Für einen Profispieler war er ganz und gar unüblich.

Trotzdem war das System auf Basis all seiner Daten und des bisherigen Spielverlaufs selber zu der Annahme gekommen, dass es mit dieser Vorgangsweise die besten Chancen hätte. "Es hat das selbst entdeckt, durch seinen eigenen Prozess der Introspektion und Analyse", formuliert es Silver. Ob dieser aus der Psychologie stammende Begriff für ein Computersystem tatsächlich angemessen ist, mag in Frage stehen. Der Erfolg jedenfalls gab AlphaGo recht. (gpi, 15.03.2016)