Künstliche Intelligenzen müssen trainiert werden
Künstliche Intelligenzen müssen trainiert werden. Mit welchem Material und unter welchen Bedingungen, daran scheiden sich derzeit die Geister.
IMAGO/Rüdiger Wölk

Amazon hat in den vergangenen drei Jahrzehnten rasant verändert, wie Bücher verkauft werden – nämlich immer mehr online –, und über sein Vorschlagsystem massiv beeinflusst, welche Bücher gekauft werden. Jetzt steht der Onlinehändler wieder an der Spitze einer Entwicklung: Anfang September veröffentlichte der Konzern auf Kindle Direct Publishing (KDP), seiner Plattform für Selbstverleger, neue Richtlinien für den Umgang mit künstlicher Intelligenz (KI).

Verkäufer werden dort beim Hochladen von Büchern gefragt, ob KI in deren Erstellung mitgewirkt habe. Zudem wurde festgelegt, wann ein Inhalt als "KI-generiert" und wann als "KI-unterstützt" gilt. "KI-generiert" meint in der Definition Amazons, dass Werke von KIs erstellt worden sind. "KI-unterstützt" ist, wenn KI bloß zum Ideenfinden, Verbessern, Faktencheck genutzt wurde. Ersteres müsse ausgewiesen werden. Am Montag legte Amazon nach: Autorinnen und Autoren, die auf KDP publizieren, dürfen künftig nicht mehr als drei Bücher am Tag veröffentlichen.

Letzteres klingt absurd, zeigt aber das Problem, dass die Zahl der von KI verfassten Texte nicht nur stark steigt, sondern sie es längst in den Verkauf schaffen. Dem Schritt war eine Reihe von Beschwerden vorausgegangen.

Fake-System

So hatte die New York Times im August festgestellt, dass der Markt für Reiseführer von KI geflutet wird. Von "Autoren" verfasst, die nicht existieren, deren bisherige Publikationslisten erfunden sind und deren Autorenfotos von KIs generiert wurden, fristen diese Titel – obwohl grammatikalisch meist fehlerhaft und in puncto Reisetipps an Wikipedia-Einträge erinnernd – allerdings kein Mauerblümchendasein. Sondern sie verfügen im Onlinehandel dank Fake-Rezensionen über glänzende Bewertungen. Manche schaffen es derart in den Verkaufsrankings ganz weit nach oben. Selbiges trifft auch auf Koch- und Gartenbücher, Businessratgeber oder Titel über Mathematik zu. Die klar umrissenen Themen von Wissensbüchern erleichtern KIs das Erstellen von Inhalten. Das mag oft bloß ärgerlich sein – doch was, wenn Bücher von KIs über Medizin Falschinfos verbreiten, aufgrund derer jemand zu Schaden kommt?

Nicht alle KI-Autoren sind aber erfunden. Die kanadische Verlagsexpertin Jane Friedman, die schon viele Bücher zur Branche geschrieben hat, hatte im Sommer bei Amazon die Löschung mehrerer Titel gefordert, die dort betrügerisch unter ihrem Namen publiziert worden waren und durch bescheidene Qualität auffielen. Amazon entfernte sie.

Einen anderen Aspekt beleuchtet die zeitgleich laufende Debatte über Bücher, die noch nicht im Handel auftauchen, sondern die erst noch entstehen könnten. Konkret beschäftigen US-Gerichte seit dem Sommer mehrere Klagen gegen die ChatGPT-Mutter OpenAI sowie den Meta-Konzern, denen Urheberrechtsverletzungen vorgeworfen werden.

Es geht dabei um Inhalte, mit denen KIs trainieren. Komikerin Sarah Silverman hatte im Juli als eine der Ersten geklagt und für Aufsehen gesorgt. Laufend werden seither Klagen eingebracht, diesen Dienstag erst wegen "systematischen Diebstahls im großen Stil" vor einem New Yorker Gericht unter anderem von Jonathan Franzen, Jodi Picoult, John Grisham und Fantasy-Bestsellerautor George R. R. Martin. Die amerikanische Autorengewerkschaft Authors Guild steht dahinter. Entweder man stoppe diesen Ideenklau, oder jene literarische Kultur werde zerstört, die auch viele andere kreative Industrien nähre, so die Autoren.

Copyright-Fragen

Überführt haben will man die KIs, indem man sie um Zusammenfassungen urheberrechtsgeschützter Werke gebeten habe. Eine zu klärende Frage lautet: Können sie diese aus Rezensionen und Userforen zusammengestoppelt haben? Oder hatten sie Zugriff auf die Volltexte?

Letzteres nehmen die Autoren an und führen "Schattenbibliotheken" ins Feld: Datenbanken, die geschützte Texte illegal frei zugänglich machen. Aus den Klagsschriften gehen in diesem Zusammenhang diverse Details hervor. OpenAIs GPT-3 soll mit zwei Datensets mit den Namen "Books 1" und "Books 2" trainiert worden sein, die über 100.000 Titel umfassen. Dass Literatur von Menschen wegen ihrer langen Sätze, Konsistenz und Entwicklungslinien fürs Training von KIs wichtig ist, geht aus früher bekannt gewordenen Dokumenten von OpenAI hervor. Inzwischen geben sich KI-Entwickler zugeknöpfter zu ihren Methoden, laut OpenAI aus Angst vor Konkurrenz.

Ende August hatte OpenAI in einem Fall Anträge auf Abweisung der meisten Anklagepunkte gestellt. Die Klagen missverstünden den Sinn von Copyright. Die Prozesse werden sich wohl ziehen. Auch, weil ein Urteil für andere Sparten beispielgebend wäre, etwa KIs betreffend, die mit bestehender Musik trainiert werden, um neue zu komponieren. (Michael Wurmitzer, 22.9.2023)