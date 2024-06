Die Frage, welche Daten beim Training großer Sprachmodelle wie genutzt werden dürfen, ist noch nicht endgültig geklärt. NBC (Youtube Screenshot)

Mustafa Suleyman, der Leiter der KI-Sparte von Microsoft, ist in einem kürzlich geführten Interview mit einer fragwürdigen Position zum Thema Urheberrecht unangenehm aufgefallen. Demnach vertritt er die Ansicht, dass im Internet öffentlich zugängliche Inhalte quasi von jedem frei genutzt werden könnten. Eine Sichtweise, die ihn vereinzelt in Konflikt mit den gängigen Interpretationen des Urheberrechts bringen könnte, sowohl in Europa als auch in den Vereinigten Staaten.

Warum sich Suleyman gegenüber NBC News zu dieser Aussage geäußert hat, ist naheliegend. Im Zuge des KI-Hypes der Tech-Branche ist nicht nur ein Wettkampf um die besseren Algorithmen ausgebrochen, sondern auch um Trainingsdaten. Viele dieser Daten stammen aus dem Internet, weil es eine leicht zugängliche, umfangreiche Quelle für vielfältige Informationen darstellt. Dies ist aber deshalb problematisch, weil Daten aus dem Internet oft nicht nur mit Biases behaftet oder unvollständig sind. Sie sind in vielen Fällen urheberrechtlich geschützt, was die Legalität der darauf trainierten Modelle in Frage stellen kann.

"Jeder kann die Inhalte kopieren"

Die Frage von Moderator Andrew Ross Sorkin, ob die großen Konzerne die IPs der Welt gestohlen haben, geht Suleyman etwas locker an: "Ich denke, dass die Inhalte im offenen Internet seit den 1990er Jahren unter 'Fair Use' fallen. Jeder kann sie kopieren, neu erstellen und vervielfältigen. Das ist Freeware, wenn Sie so wollen". Es stimmt zwar, dass die EU mit einer Urheberrechts-Richtlinie eine Sonderregelung für das Training von KIs mit Text- und Data-Mining geschaffen hat, die auch in Österreich umgesetzt worden ist.

Suleyman spricht in diesem Kontext aber auch von einer "Grauzone" und meint damit eine klar formulierte "Opt out"-Möglichkeit, wonach zum Beispiel Webseiten, Verlage oder Nachrichtenorganisationen einer Verwedung durch KI ausdrücklich widersprechen können. Besonders im Kontext laufender Gerichtsverfahren, die Microsoft (und OpenAI) beschuldigen, urheberrechtlich geschützte Inhalte für das Training von generativen KI-Modellen zu verwenden, scheint diese Bezeichnung mutig.

The Verge verweist in diesem Zusammenhang darauf, dass in den USA der Urheberrechtsschutz automatisch entsteht, sobald jemand ein Werk erschafft. Auch wenn man sein Werk im Internet veröffentliche, verliere man nicht automatisch die Urheberrechte daran. Da es sogar recht komplex sei, auf diese Rechte freiwillig zu verzichten, hätten Rechtsanwälte spezielle Lizenzen für das Web entwickelt, die es vereinfachen, die Nutzung und das Teilen von Inhalten zu regeln.

Auch das Konzept des "Fair Use", auf das sich Suleyman bezieht, ist nicht unumstritten, besonders im Zusammenhang mit dem Training von KI. Diese Regelung erlaubt zwar die Nutzung urheberrechtlich geschützter Werke unter bestimmten Bedingungen - jedoch ist unklar, ob und wie diese auf die Verwendung solcher Inhalte auch für diese Trainings anwendbar ist. Mit diesen Fragen werden sich Gerichte weltweit wohl noch lange beschäftigen. Die Aussagen zeigen jedenfalls deutlich, dass der Gebrauch öffentlich zugänglicher Daten aus dem Internet bei Konzernen nicht allzu zurückhaltend gehandhabt werden dürfte. Zumindest nicht bei Microsoft. (red, 30.6.2024)