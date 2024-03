In ihrem Gastkommentar skizzieren Tim O'Reilly, der Gründer des Computerbuchverlags O'Reilly Media, und Mike Loukides, Vice President of Content Strategy des Verlags, ein Urheberrecht im Zeitalter von künstlicher Intelligenz (KI).

Künstliche Intelligenz stellt das Urheberrecht auf unvorhergesehene und unbequeme Weise auf die Probe. Der neuen Leitlinie der US Copyright Office zufolge sind die Arbeitsergebnisse bildgenerierender KI nicht urheberrechtlich geschützt, sofern in die Erstellung der Abfragen keine menschliche Kreativität eingeflossen ist. Doch das wirft viele Fragen auf: Wie viel Kreativität ist nötig, und ist es die gleiche Art Kreativität, die ein Künstler, eine Künstlerin mit dem Pinsel ausübt?

Auch Texte sind betroffen. Verfasserinnen und Verfasser von Romanen argumentieren, dass das Training eines Modells unter Verwendung von urheberrechtlich geschütztem Material schon an sich eine Urheberrechtsverletzung darstellt, auch wenn das Modell diese Texte im Rahmen seiner Ergebnisse nie reproduziert. Doch ist das Lesen von Texten seit jeher – seit es Schriftsprache gibt – Teil des menschlichen Lernprozesses. Während wir für Bücher bezahlen, zahlen wir nicht dafür, aus ihnen zu lernen.

Das Konzept der Datenwürde

Wie lässt sich das sinnvoll gestalten? Was sollte Urheberrecht im Zeitalter der KI bedeuten? Eine Antwort hierauf liefert der Technologe Jaron Lanier mit seiner Idee der Datenwürde, die implizit zwischen dem Training (oder der "Schulung") eines Modells und der Erzeugung von Arbeitsergebnissen mittels dieses Modells unterscheidet. Ersteres, argumentiert Lanier, sollte eine geschützte Aktivität sein, während die Produktion der Ergebnisse tatsächlich das Urheberrecht einer Person verletzen könne.

Diese Unterscheidung ist aus mehreren Gründen attraktiv. Das aktuelle US-Urheberrecht schützt "transformative Nutzungen (…), die etwas Neues hinzufügen" – und das ist ziemlich offensichtlich genau das, was KI-Modelle tun. Auch ist es nicht so, dass große Sprachmodelle (LLMs) wie ChatGPT den kompletten Text etwa von George R. R. Martins Fantasyromanen enthalten, um dann dreist daraus zu kopieren.

Öffentliches Gut

Vielmehr besteht das Modell aus einem enormen Satz von Parametern, der auf allen Inhalten basiert, mit denen das Modell während des Trainings gefüttert wurde. Diese Parameter bilden die Wahrscheinlichkeit ab, mit der ein Wort auf ein anderes folgt. Wenn diese Wahrscheinlichkeits-Engines jetzt ein Sonett ausspucken, das dem Reimschema Shakespeares folgt, aber nicht von diesem stammt, ist das transformativ, selbst wenn das neue Sonett nicht annähernd gut ist.

Lanier betrachtet die Schaffung eines besseren Modells als ein öffentliches Gut, das allen dient – auch den Autorinnen und Autoren, deren Werke verwendet werden, um das Modell zu trainieren. Das mache es transformativ und schützenswert. Aber es gibt ein Problem mit seinem Konzept der Datenwürde: Es ist unmöglich, sinnvoll zwischen dem "Training" aktueller KI-Modelle und der "Erzeugung von Arbeitsergebnissen" im Stile etwa der Romanautorin Jesmyn Ward zu unterscheiden.

Wo das Problem liegt

KI-Entwickler trainieren Modelle, indem sie sie mit kleinen Mengen an Daten füttern und milliardenfach auffordern, das nächste Wort vorherzusagen. Dabei werden die Parameter immer wieder leicht angepasst, um die Vorhersagen zu verbessern. Derselbe Prozess wird freilich anschließend verwendet, um die Ergebnisse zu erzeugen, und hier liegt aus urheberrechtlicher Sicht das Problem.

Ein Modell, das aufgefordert wird, wie Shakespeare zu schreiben, könnte mit dem Wort "to" beginnen, was es geringfügig wahrscheinlicher macht, dass es danach "be" wählt. Dies wiederum macht es etwas wahrscheinlicher, dass das nächste Wort "or" sein wird – und so weiter. Dennoch bleibt es unmöglich, dieses Ergebnis mit den Trainingsdaten in Verbindung zu bringen.

Statistik, nicht Kreativität

Woher kommt das Wort "or"? Obwohl es das nächste Wort in Hamlets berühmtem Monolog ist, kopierte das Modell nicht "Hamlet". Es wählte "or" einfach aus Hunderttausenden von Wörtern aus, die es hätte wählen können – alles auf statistischer Grundlage. Das ist nichts, was wir Menschen als Kreativität betrachten würden. Das Modell maximiert einfach die Wahrscheinlichkeit, dass wir Menschen sein Arbeitsergebnis als verständlich empfinden.

Aber wie können Autorinnen und Autoren dann angemessen für ihre Arbeit entschädigt werden? Während es bei den aktuellen generativen KI-Chatbots unmöglich ist, die Herkunft der Ergebnisse nachzuvollziehen, ist das nicht das Ende der Geschichte. Seit dem Launch von ChatGPT wurden Anwendungen auf der Basis der bestehenden Grundmodelle entwickelt. Viele verwenden die Retrieval-Augmented Generation (RAG), um es einer KI zu ermöglichen, etwas über in ihren Trainingsdaten nicht enthaltene Inhalte zu "wissen". Wenn Sie einen Text für einen Produktkatalog generieren müssen, können Sie die Daten Ihres Unternehmens hochladen und dann mit der Anweisung "Verwende in der Antwort nur die in dieser Anfrage enthaltenen Daten" an das KI-Modell senden.

Wissen über Inhalte

Obwohl RAG dafür konzipiert wurde, proprietäre Informationen zu nutzen, ohne den arbeits- und rechenintensiven Prozess des Trainings durchlaufen zu müssen, schafft sie ganz nebenbei eine Verknüpfung zwischen der Antwort des Modells und den Dokumenten, aus denen die Antwort erstellt wurde. Das bedeutet, dass wir jetzt wissen, wo die Inhalte herkommen, was uns Laniers Vision der Datenwürde deutlich näher bringt.

Wenn wir eine von einem menschlichen Programmierer erstellte Währungsumrechnungssoftware in einem Buch veröffentlichen und unser Sprachmodell sie in der Antwort auf eine Anfrage reproduziert, können wir das der ursprünglichen Quelle zuschreiben und die Tantiemen entsprechend zuweisen. Das Gleiche würde für einen im Stile von Ward (ausgezeichnetem) Singt, ihr Lebenden und ihr Toten, singt geschriebenen KI-generierten Roman gelten.

"Die Regulierungsbehörden müssen tätig werden."

Googles KI-gesteuerte Übersichtsfunktion ist ein gutes Beispiel dafür, was wir von RAG erwarten können. Da Google bereits die weltbeste Suchmaschine hat, sollte seine Zusammenfassungs-Engine in der Lage sein, auf eine Anfrage mit einer Suche zu reagieren und die wichtigsten Ergebnisse in ein LLM einzuspeisen, um die Übersicht zu erstellen, nach der die Benutzerin gefragt hat. Das Modell würde die Sprache und Grammatik liefern, aber den Inhalt aus den in der Anfrage enthaltenen Dokumenten ableiten. Dies wiederum würde uns sagen, woher die Inhalte stammen.

Da wir nun also wissen, dass es möglich ist, Ergebnisse zu generieren, die das Urheberrecht beachten und die Urheberinnen und Urheber entschädigen, müssen die Regulierungsbehörden tätig werden, um Unternehmen, die dies nicht tun, zur Rechenschaft zu ziehen – genau wie sie für Hassrede und andere Formen unangemessener Inhalte zur Verantwortung gezogen werden. Wir sollten die Behauptung führender LLM-Anbieter, dass dies technisch nicht machbar sei, nicht akzeptieren. Tatsächlich ist es eine der vielen geschäftsmodellbedingten und ethischen Herausforderungen, die sie bewältigen können und müssen.

Keine Ausrede mehr

Zudem bietet RAG zumindest eine Teillösung für das aktuelle Problem der "KI-Halluzinationen". Wenn eine Anwendung (wie die Google-Suche) einem Modell die zur Formulierung einer Antwort benötigten Daten zur Verfügung stellt, ist die Wahrscheinlichkeit, dass das Modell völligen Unsinn produziert, viel kleiner, als wenn es sich ausschließlich auf seine Trainingsdaten stützt. Die KI-Ergebnisse ließen sich also präzisieren, indem man sie auf als zuverlässig bekannte Quellen beschränkt.

Wir fangen gerade erst an, zu erkennen, was mit diesem Ansatz möglich ist. Die RAG-Anwendungen werden mit der Zeit zweifellos komplexer und vielschichtiger werden. Aber da wir nun über die Werkzeuge verfügen, um die Herkunft von Inhalten zurückzuverfolgen, haben Technologieunternehmen keine Ausrede mehr für die mangelnde Wahrnehmung ihrer urheberrechtlichen Verantwortung. (Tim O'Reilly, Mike Loukides, Übersetzung: Jan Doolan, Copyright: Project Syndicate, 1.3.2024)