Autoren bekommen es ein bisschen mit der Angst zu tun. Künstliche Intelligenz produziert mittlerweile auch Texte in verblüffender Qualität.

Foto: APA

Ist im Netz posthum ein neuer Song von David Bowie aufgetaucht? Wenn man sich durch die Webseite von Open AI klickt, könnte man meinen: Ja. Der Altmeister singt da, psychedelisch wie eh und je, zu einer metallisch-dystopischen Melodie. Das Lied hätte auch auf seinem letzten Album Lazarus aufgenommen worden sein können. Allein der Song stammt nicht von David Bowie, sondern von einer künstlichen Intelligenz (KI) – genauer gesagt: von Jukebox. So heißt der maschinell lernende Algorithmus, der mit 1,2 Millionen Songs trainiert wurde – und dabei eine ganz eigene Playlist erstellt hat.

Die Organisation Open AI hat im vergangenen Jahr bereits ein neuronales Netzwerk namens Muse-Net entwickelt, das anhand eines Samples vierminütige Kompositionen mit zehn unterschiedlichen Instrumenten in verschiedenen Stilrichtungen kreiert. Man wirft der Maschine einfach die ersten sechs Noten einer Nocturne von Chopin hin, schon dudelt die KI im Stile von Bon Jovi. Es klingt tatsächlich so, als würde der Rocker am Klavier Chopin spielen.

Die neue KI-Jukebox geht jedoch noch einen Schritt weiter: Sie sampelt nicht nur Musikstücke, sondern schreibt auch eigene Songtexte.

In diesem Jahr hatte Open AI einen vielbeachteten Textgenerator (GPT-3) veröffentlicht, der in einer solch verblüffenden Qualität Texte produziert, dass es Autoren mit der Angst zu tun bekommen. Meldungen, Produktbewertungen, Seminararbeiten, Essays, Parodien, Gedichte – die KI kann so gut wie alles. Das neuronale Netzwerk von Jukebox funktioniert ähnlich wie jenes von GPT-3: Es versucht nach einem Wahrscheinlichkeitsmodell die nächsten Audioschnipsel vorherzusagen. Es ist ein wenig so, als würde man einem Kind so lange eine Melodie vorspielen, bis es diese nachsummt.

Andere Komplexität

Ein Text gehorcht wie eine Partitur einer mathematischen Logik: Es gibt Frequenzen, Häufigkeiten, Wiederholungen. Und alles, was einer Regelmäßigkeit folgt, lässt sich modellieren. Allein ein Musikstück hat eine ganz andere Komplexität als ein Text: Da reihen sich nicht nur Buchstaben aneinander, sondern Töne auf ganz unterschiedlichen Ebenen.

Es ist verhältnismäßig einfacher, einen Textgenerator zu programmieren, der wie George Orwell schreibt, als ein generatives Musikmodell zu programmieren, das nicht nur wie Bob Dylan komponiert und schreibt, sondern auch so klingt. Die KI musste daher nicht nur die Verteilung von Noten, sondern auch Semantiken wie Singen und Melodien lernen. Mithilfe eines speziellen Programms wurden Vocals aus den Songs extrahiert, die auf die Textebene heruntergebrochen wurde.

Wenn die KI das Wort "mountain" in einem Bob-Marley-Song erkannte, fügte sie es ihrem Repertoire hinzu, sodass das intonierte Wort dann auch in einem anderen Kontext, sprich Song, eingesetzt werden konnte.

Um die Komplexität zu reduzieren, wurden die Audiodateien komprimiert, was zulasten der Qualität ging. Manche Aufnahmen klingen etwas verrauscht. Doch wie Bob Dylan mit seiner knarzigen, undeutlichen Stimme über die Liedzeilen von David Bowies Klassiker Absolute Beginners rauscht, klingt so authentisch, dass es schon fast gruselig ist. Zugegeben: Ein paar Aussetzer in dem Lied gibt es, weil die Datengrundlage für Dylan nicht so groß ist. Trotzdem ist es erstaunlich, wie eine KI einen genuinen Dylan-Song produziert, an dem dieser gar nicht mitgewirkt hat.

Es gibt ja schon länger Versuche, Computer in ein Musikinstrument zu verwandeln. Bereits der Informatikpionier Alan Turing tüftelte in den 1950er-Jahren an einer Musikmaschine: Sie konnte drei Melodien erzeugen. Neuseeländischen Wissenschafter gelang es kürzlich, eine seltene Tonaufnahme von Turings Automaten aus dem Jahr 1951 wiederherzustellen.

Synthetische Sounds

In den 1990er-Jahren experimentierte David Bowie mit einer Randomisierungssoftware namens Verbasizer, die ein paar Zeilen seines Songs Hallo Spaceboy geschrieben haben soll. Trotzdem kam computergenerierte Musik kaum über synthetische Sounds hinaus.

Doch das ändert sich durch die Fortschritte der künstlichen Intelligenz massiv. Man kann neuronale Netze mit so viel Material füttern, dass sie irgendwann selbst ein Werk adaptieren. So hat Sony 2016 eine Software namens Flow Machines entwickelt, die eine Melodie im Stile der Beatles komponiert hat (Daddy’s Car).

Die Frage ist: Ist das schon Kunst? Oder bloß ein maschineller Mash-up? Kann eine künstliche Intelligenz kreativ sein? Ist das eine schöpferische Leistung? Und wenn ja – wem gebühren die Urheberrechte? Man hatte diese Urheberrechtsdebatte ja schon in den 1970ern geführt, als DJs bestehende Sounds bzw. Klänge digitalisierten und in Synthesizer einspeisten.

Mehr als Remix

Doch womöglich ist die digitale Mimikry mehr als ein bloßes Remixing. Daddy’s Car hört sich original nach Beatles an, ist aber eben nicht Beatles. Darf man ein Werk einfach fortsetzen? Müssen Stars wie Kanye West oder Katy Perry ihr Einverständnis erklären, dass Open AI ihre Tonaufnahmen als Trainingsmaterial nutzen darf? Kann sich Bob Dylan dagegen wehren, dass er seine Stimme einer KI leiht?

So faszinierend die Technologie ist, so offen sind die rechtlichen Fragen, die sie aufwirft. Doch bis es über die KI-Nutzung von Werken eine Einigung gibt, wird wohl schon der erste algorithmisch generierte Song die Charts erobert haben. (Adrian Lobe, 12.10.2020)