"Data Poisoning" ist der Sand im Getriebe der künstlichen Intelligenz

KI-generiertes Bild von einer Flasche mit roter Flüssigkeit vor eine Maschine — Mit "vergifteten Daten" lassen sich die Modelle von Midjourney und Co austricksen.

Manche Kreationen von KI-Bildgeneratoren wie Dall-E, Midjourney oder Stable Diffusion erinnern verdächtig an die Werke bekannter Künstlerinnen und Künstler. Das verwundert nicht, sind die Systeme schließlich mit Abermillionen von vorhandenen Bildern trainiert worden.

Die Debatte, wem die KI-Werke gehören und ob Midjourney und Co mit ihrem Geschäftsmodell systematisch das Urheberrecht verletzen, ist daher fast genauso alt wie die Generatoren selbst. So haben bereits Anfang des Jahres Kulturschaffende eine Klage gegen Midjourney und Stable Diffusion eingereicht, weil sie ihre Rechte verletzt sehen.

Die neueste Version von Dall-E, die sich seit kurzem auch in Österreich mit der kostenpflichtigen Version von ChatGPT nutzen lässt, lehnt Aufforderungen, Bilder im Stil bestimmter Künstlerinnen und Künstler zu generieren, wohl auch deshalb vorerst ab – zumindest, wenn sie noch am Leben sind. Zudem können Kunstschaffende ihre Werke aus den Trainingsdaten für Dall-E herausnehmen lassen – wobei dieser Prozess ziemlich nervenaufreibend sein soll.

Offline-Tools kaum kontrollierbar

Eine wirkliche Lösung ist das allerdings nicht. Denn es liegt an den Herstellern der Software, solche Opt-outs zu berücksichtigen oder Anfragen abzulehnen, mit denen bestimmte Künstlerinnen und Künstler nachgeahmt werden sollen. Bei Tools, die auch offline funktionieren, ist diese Kontrolle aber kaum umsetzbar.

Wie missbrauchsanfällig etwa die Open-Source-Software Stable Diffusion ist, haben wir diese Woche berichtet: So ist es für Kriminelle etwa ein Leichtes, mit dem Programm Stable Diffusion äußerst realistische Missbrauchsdarstellungen von Minderjährigen zu generieren. Ein ebenfalls beängstigender Trend ist die Zunahme der Deepfake-Pornos, die zum Teil real existierende Personen zeigen.

Dass echte Fotos oder Kunstwerke in den Trainingsdaten für KI-Software landen, lässt sich technisch kaum verhindern. Unternehmen wie OpenAI greifen große Teile des Internets automatisiert ab. Das Programm "Nightshade" soll nun aber verhindern, dass die Bilder von den Modellen richtig verarbeitet werden können. Ein Team der Universität Chicago hat das Tool geschaffen, mit dem das geistige Eigentum und das Recht am eigenen Bild geschützt werden sollen – und zwar, indem die Daten "vergiftet" werden.

Aus Hunden werden Katzen

Das passiert, indem die einzelnen Pixel der Bilder so manipuliert werden, dass die Modelle falsche Schlüsse aus dem abgebildeten Inhalt ziehen, berichtet die "MIT Technology Review". Mit den vergifteten Daten könnte man die Modelle etwa dazu bringen, in einem Bild von einem Hut einen Kuchen zu sehen. Mit nur 300 manipulierten Bildern sollen die Forschenden eine selbst trainierte Version des Bildgenerators Stable Diffusion etwa dazu gebracht haben, Bilder von Hunden zu erzeugen, die wie Katzen aussehen.

Das funktioniert klarerweise nur bei kleinen Trainingssätzen – ist aber ohnehin nicht Zweck des Projekts. Schließlich geht es nicht darum, Dall-E und Midjourney das Zeichnen von Hunden verlernen zu lassen, sondern darum, sie davon abzuhalten, geschütztes Material zu verspeisen.

Auch anderswo sorgt man sich darum, dass Inhalte ohne die Erlaubnis der Urheberinnen und Urheber in den Trainingsdatensätzen von OpenAI und Konsorten landen. Zeitungen wollen etwa Geld dafür sehen, wenn Large Language Models wie ChatGPT ihre Daten verwenden. Zwar hat OpenAI im August eine Anleitung veröffentlicht, wie man signalisiert, dass das Tech-Unternehmen auf der eigenen Website unerwünscht ist. Aber auch hier gilt: Nicht alle Crawler, also Programme, die Daten von Websites abgreifen, dürften auf diesen Wunsch eingehen.

Viele sehen aufgrund des KI-Frühlings ja Feuer auf dem Dach der Medienhäuser. Etwas differenzierter sieht das der Journalist Hannes Grassegger, der seine Sicht der Dinge in einem Essay anlässlich des 35-Jahr-Jubiläums der ersten STANDARD-Ausgabe niederlegt. Um die Medienindustrie stehe es zwar katastrophal, schreibt er, doch die Kernfähigkeit der Journalistinnen und Journalisten sei nicht bedroht. Warum, das lesen Sie hier. (Philip Pramer, 28.10.2023)

Newsletter Künstliche Intelligenz

"Data Poisoning" ist der Sand im Getriebe der künstlichen Intelligenz

Offline-Tools kaum kontrollierbar

Aus Hunden werden Katzen

Forum: 99 Postings

Ihre Meinung zählt.