Kann ein künstliches System lernen, Musik zu interpretieren?

Gerhard Widmer wechselt zwischen Klavier- und Computertasten hin und her. Er arbeitet daran, wie man technischen Systemen ein umfassenderes Musikverständnis beibringt.

Musizieren zu lernen heißt zu üben. Fingerfertigkeit, Atemtechnik und andere Fähigkeiten müssen möglichst perfekt koordiniert sein. Doch die technische Meisterschaft ist letztendlich nur die Basis, auf der das eigentlich erstaunliche Phänomen der Musik aufbaut: Die von Hand organisierten Tonsignale treten in eine erstaunliche Verbindung mit der Gefühlswelt eines Menschen.

Musik passt zu einer Stimmung oder kann sie verändern. Sie kann motivierend oder euphorisierend wirken, sie kann aber auch zum Resonanzraum für traurige oder schmerzvolle Stimmungen werden. Die Kunstform ist ein einzigartiges Werkzeug der Menschen, Emotionen auszudrücken und zu kommunizieren.

Das Geheimnis der Emotion

Musikwissenschafter und Kognitionsforscher zerbrechen sich den Kopf darüber, wie das Gehirn diese Kommunikation organisiert. Auch Gerhard Widmer möchte auf seine Weise dem Geheimnis der Emotion in der Musik auf die Spur kommen. Der Leiter des Instituts für Computational Perception der Johannes-Kepler-Universität Linz arbeitet mit seinem Team daran, Computern diese Fähigkeit zum musikalischen Ausdruck beizubringen.

Die Systeme sollen individuelle Interpretationen von Musikern erkennen und auch selbst ausdrucksvoll spielen lernen – und damit jene Tempoverläufe oder Betonungen, die nicht auf dem Notenblatt abgebildet sind, berücksichtigen.

Letztendlich sollen jene Muster und Strukturen in der Musikdarbietung, in der die transportierte Emotion kodiert ist, entschlüsselt werden. "Die Frage, die ich bereits seit einigen Jahrzehnten zu beantworten versuche, ist: Kann ein Computer lernen, Musik zu interpretieren?", resümiert Widmer, der auch selbst ein ausgezeichneter Pianist ist.

Klavierduett mit Computer

Die Forschungen von Widmer, der bereits 2009 den Wittgensteinpreis von Wissenschaftsministerium und Wissenschaftsfonds FWF verliehen bekam, wurden kürzlich bei der Falling-Walls-Konferenz in Berlin zum "wissenschaftlichen Durchbruch des Jahres 2021" gekürt.

Bei der Preisverleihung stellte er ein Ergebnis seiner Arbeit aus dem ERC-Projekt "Con Espressione" vor: ein Computersystem, das gemeinsam mit einem menschlichen Pianisten ein Stück von Johannes Brahms am Klavier spielt – und sich dabei an das ausdrucksvolle Spiel des Menschen anzupassen vermag, sich mit ihm synchronisiert.

Spielen Menschen gemeinsam Musik, läuft ein komplexer Koordinationsvorgang ab. Körpersprache, Gehör und Erfahrungen aus früherem Zusammenspiel helfen bei der Synchronisation des Ausdrucks. Dem Computer fehlen diese Möglichkeiten. Er muss mit seinen Fähigkeiten, in hoher Geschwindigkeit große Datenmengen zu analysieren, auskommen.

Verortung im Musikstück

"Die erste Schwierigkeit für das System ist, immer zu wissen, wo man sich gerade im Notentext befindet – auch wenn der menschliche Spieler Fehler macht. Für erfahrene Musikerinnen scheint das einfach, aber algorithmisch sind solche Unwägbarkeiten durchaus eine Herausforderung", sagt Widmer.

Funktioniert die Verortung im Musikstück, kann darauf das ausdrucksvolle Spiel – und Zusammenspiel – aufsetzen. "Der Rechner muss seine eigenen Interpretationsentscheidungen treffen – auf Basis eines Interpretationsmodells, das ein Künstliche-Intelligenz-System (KI) durch eine Vielzahl an Trainings gelernt hat", erklärt Widmer.

Ton für Ton-Analyse

Dieses Modell, das die Linzer Informatiker nutzen, ist maßgeblich vom Musikstil eines Pianisten geprägt – von Nikita Magaloff. Der mittlerweile verstorbene russische Musiker hat bereits in den 1980ern die gesamten Klavierwerke Chopins auf einem Computerflügel eingespielt. Auf Basis dieser Daten, die Widmer und sein Team verwenden dürfen, konnte das KI-System jene Muster lernen, die einem ausdrucksvollen Spiel zugrunde liegen.

Im Spiel mit einem menschlichen Partner analysiert das System Ton für Ton die individuelle Spielart des Partners und entwickelt in Echtzeit ein Prognosemodell, das sowohl auf dem Training anhand der Magaloff-Daten als auch auf dem aktuellen Input fußt. Dessen Umsetzung entspricht im besten Fall dann auch in Timing, Tempo und Betonungen jenen des menschlichen Partners.

Widmer betont, dass ein System auf dieser Basis niemals "echtes Zusammenspiel", wie es zwischen Menschen möglich ist, ersetzen kann. Ihm geht es nicht darum, eine KI zum Konzertpianisten zu machen. Der künstliche Duettpartner ist lediglich ein Demonstrationsbeispiel, die seine Grundlagenforschung veranschaulicht.

330.000 Chopin-Noten

Das dahinterstehende Interpretationsmodell auf Basis der Magaloff-Daten zu schaffen war eine komplexe und langwierige Aufgabe, schildert Widmer. "In mühsamer Kleinarbeit mussten 330.000 am Computerflügel eingespielte Noten im Notentext identifiziert und mit der digitalen Version in Beziehung gesetzt werden. Wir haben allein daran etwa zwei Jahre gearbeitet." Dabei wurden übrigens auch alle Fehler, die der Pianist beim Einspielen gemacht hat, registriert.

Das KI-Modell, das anhand dieser Daten trainiert wurde, kann nun auf weitere Notentexte angewandt werden und zu diesen musikalische Interpretationen generieren. Das Ergebnis klingt manchmal gut, manchmal auch weniger, sagt Widmer: "Das System lernt grundlegend, wie man Phrasen strukturieren muss. Wir sind glücklich, wenn es musikalisch klingt und keine großen Schnitzer darin sind. Vom originalen Ausdruck Magaloffs ist es natürlich weit entfernt." Doch immerhin: Bei bestimmten ausgewählten Passagen konnte ein Auditorium nicht unterscheiden, ob das Gebotene nun von einem Menschen oder einer KI stammt.

Ausdrucksvolle Darbietung

Die Interpretationsfähigkeiten der KI-Systeme sollen in Zukunft noch maßgeblich verbessert werden. Die Forschung von Widmer und Kollegen wird sich noch stärker auf jene Strukturen richten, die für eine ausdrucksvolle Darbietung relevant sind. "Menschen, die Musik spielen oder hören, konzentrieren sich weniger auf einzelne Noten als auf Gruppierungen, musikalische Phrasen, die in bestimmter Weise betont sind – ähnlich wie beim Verstehen eines Textes, den man nicht nur als Ansammlung von Buchstaben versteht", skizziert Widmer.

Diese Wahrnehmung zusammengehörender Abschnitte, die ein Musikstück strukturieren, soll auch dem Computer beigebracht werden. Schafft man es, diese Art einer "Grammatik der Musik" in Algorithmen abzubilden, wäre man dem Ziel einer wahrhaft musikalischen KI einen großen Schritt näher, ist Widmer überzeugt. (Alois Pumhösel, 27.11.2021)

Duett mit Computer