Das Bild zeigt ein Auge, in dem sich das Logo von OpenAI spiegelt
Für das Trainieren fortschrittlicher KI-Modelle wird das Überschreiten rechtlicher Grenzen offenbar gerne in Kauf genommen.
APA/AFP/Saget

Die rasante Entwicklung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren den Bedarf an Daten massiv erhöht. Sie sind für das Training hochentwickelte Modelle unerlässlich. Im Wettlauf um die fortschrittlichste KI schrecken führende Unternehmen wie OpenAI, Google und Meta auch nicht davor zurück, für die Beschaffung von Trainingsdaten zu etwas "unkonventionelleren" Methoden zu greifen. Damit wird offenbar in Kauf genommen, Unternehmensrichtlinien zu ignorieren und Urheberrechtsgesetze zu verletzen.

Youtube-Videos für GPT-4

Wie die "New York Times" berichtet, soll ChatGPT-Entwickler OpenAI bereits 2021 vor dem Problem gestanden sein, dass kaum noch seriöse englischsprachige Textdaten im Internet für das Training vorhanden waren. Das Unternehmen benötigte aber dringend neue Datenquellen, um die nächste Version seiner Technologie trainieren zu können.

Die Lösung fand das Forschungsteam in einem selbstentwickelten Spracherkennungstool namens Whisper, mit dem der Inhalt von Youtube-Videos in verwertbare Texte umgewandelt worden ist. In Zahlen ausgedrückt resultierte diese Methode in der automatisierten Transkription von mehr als einer Million Stunden Videomaterial. Trotz möglicher Verstöße gegen die Richtlinien von Youtube wurde diese gewaltige Textmenge verwendet, um das Sprachmodell GPT-4 zu trainieren.

Wettlauf um Daten

Der Kampf um die Vorherrschaft im Bereich der Künstlichen Intelligenz veranlasst die Unternehmen aber nicht nur dazu, die Grenzen von Unternehmensrichtlinien zu überschreiten. Google selbst soll ebenfalls Youtube-Videos transkribiert haben, um Textdaten zu erhalten – und hat damit möglicherweise auch gegen Urheberrechtsgesetze verstoßen, die die ursprünglichen Schöpfer dieser Inhalte schützen. Darüber hinaus hat das Unternehmen im letzten Jahr seine Nutzungsbedingungen geändert, um öffentlich zugängliche Dokumente und Onlinematerialien für die Entwicklung Künstlicher Intelligenz nutzen zu können.

Facebook-Mutter Meta, ein weiterer großer Player in diesem Bereich, soll darüber hinaus den Kauf von Verlagen erwogen haben, um Zugang zu einer Fülle von Langtexten zu erhalten, heißt es im Bericht. Auch spielte man mit dem Gedanken, urheberrechtlich geschützte Daten aus dem gesamten Internet zu sammeln, wohl wissend, dass dies zu potenziellen Rechtsstreitigkeiten führen könnte.

Neues Problem

Der unersättliche Verbrauch digitaler Inhalte durch KI-Technologien wirft zudem ein weiteres Problem auf: Eine sich abzeichnende Datenknappheit bis zum Jahr 2026 könnte zu einer Verlagerung hin zur Erstellung "synthetischer" Daten führen. Dabei generieren KI-Modelle neue Daten, um daraus zu lernen und so die Abhängigkeit von menschlich erstellten Inhalten zu verringern. Eine Praxis, die das Risiko birgt, dass die Systeme in eine Schleife geraten, in der sie ihre eigenen Fehler und Begrenzungen verstärken.

In diesem derzeit noch von Unsicherheit und rechtlichen Grauzonen geprägten Umfeld bleibt es also abzuwarten, wie sich das Verhältnis zwischen Politik, KI-Entwicklern, Urheberrechtsinhabern und der Kreativwirtschaft entwickeln wird. Das Gleichgewicht zwischen der Förderung technologischer Innovation und dem Schutz der Urheberrechte dürfte sich jedenfalls zu einer der größten Herausforderungen in diesem Bereich entwickeln. (red, 8.4.2024)