Im Gastblog analysiert Sarah Spiekermann Probleme, die sich bei der Analyse von Daten durch künstliche Intelligenzen stellen. Dieser Beitrag ist der erste Teil einer Reihe zum Thema "Generative AIs". Eine Einleitung in das Thema ist hier zu finden.

Ich beginne diese Miniserie zu den GenAIs (zum Beispiel ChatGPT) mit der Darstellung technischer Herausforderungen, die man nicht als Kleinigkeit betrachten darf, da sie fundamentale europäische Werte betreffen und sich lange nicht so einfach technisch "fixen" lassen, wie das gerne propagiert wird. 

Welche Daten werden von KIs benutzt?

Da ist zunächst der Datenschutz, der in Italien dazu geführt hat, dass ChatGPT verboten wurde. Die großen Datenmengen, auf denen die Basismodelle der GenAIs trainiert werden müssen (und wurden), enthalten fast das ganze Internet und damit viele personenbezogene Daten, die für das KI-Training einer zweckentfremdeten Zweitnutzung zugeführt werden (und worden sind). Informationen, die Leute zum Beispiel irgendwann mal auf Twitter oder Reddit gelassen haben, werden plötzlich von ChatGPT unliebsam an die Oberfläche gespült. Überraschenderweise erklärt dann eine GenAI etwas über eine Person (etwa deren Adresse), was ziemlich privat sein kann.

Big data
In den USA kann man sich bereits mit dem eigenen virtuellen Freund unterhalten. Das führt auch zu einer massiven Weitergabe intimer Daten.
Foto: Getty Images/iStockphoto

Streng genommen müsste rückwirkend von allen europäischen Nutzern und Nutzerinnen eine Zustimmung eingeholt werden, dass ihre in den sozialen Medien und sonst wo hinterlassenen personenbeziehbaren Daten für das KI-Training benutzt werden dürfen; selbst auf die Gefahr hin, dass es so zu einem unliebsamen und unkontrollierbaren "Hochspülen" von Einzelinformationen kommen kann. Wer würde dem gerne zustimmen?

Gravierende Machtverhältnisse

Darüber hinaus erzählen Menschen den GenAIs viele private Details, vor allem wenn diese (sehr bald wohl) mit Sprachassistenten wie Siri oder Alexa gekoppelt werden. Auf Snapchat etwa kann man sich in den USA bereits mit dem eigenen virtuellen Freund unterhalten. Die Frage ist jedoch, ob es überhaupt im Sinne der Privatsphäre sein kann, dass KI-Betreiber solche Unmengen an privaten Interna österreichischer Bürger und Bürgerinnen erfahren sollten. Das führt zu noch nie da gewesenen Machtasymmetrien und Abhängigkeiten von einzelnen KI-Unternehmen.

Die Betreiber der persönlichen ChatGPTs werden noch ungeheuer viel mächtiger und wissender, als Google es je war, und werden die Macht haben, österreichische Bürger und Bürgerinnen über deren virtuelle KI-Assistenten massiv zu manipulieren. Denn wer wird nicht auf seinen virtuellen Best Buddy hören, wenn man mit dem schon lange kommuniziert und er oft hilfreich war?

Stimmt es, was die KIs erzählen?

Damit bin ich beim nächsten Wertthema: Die GenAIs sind manchmal nicht so hilfreich, wie man auf den ersten Blick denkt, denn mit der Wahrheit haben sie es nicht so. Mathematisch zwangsläufig enthalten die Deep Neural Networks immer Schätzungsfehler, Annährungsfehler und Optimierungsfehler. Es wurde schon viel vom Halluzinieren der GenAIs berichtet, etwa fantasierten Quellenangaben oder peinlichen Falschdarstellungen von Menschen. Aufgrund der technischen Natur der GenAIs ist dieses Problem jedoch so wenig in den Griff zu bekommen wie die Schwerkraft, die man zwar austricksen, aber nicht aufheben kann.

Vor allem lässt sich nicht ändern, dass sich diese Maschinen immer nur auf historische Daten beziehen können und keine größeren Sachzusammenhänge verstehen. So wird die KI gerne mal erzählen, dass die USA und China die datenschutzfreundlichsten Nationen der Erde sind, was Fachleute als falsch erkennen; Laien aber nicht unbedingt.

Vor allem was die Zukunftsgerichtetheit von Wahrheit betrifft, sind den GenAIs harte technische Grenzen gesetzt. Originelle Lösungen in der Rechtsprechung, neue Bauweisen in der Architektur oder die Entwicklung von Sprache sind diesen Systemen technisch nicht zugänglich, denn diese kontinuierliche Entwicklung von Zivilisation kann auf Basis historischer Datensätze schlichtweg nicht erfolgen.

Schlimmer aber noch ist, dass Fake News im Internet von den GenAIs als wahr für ihr Training aufgegriffen werden können und es so zur einer noch weiteren Verbreitung von Unwahrheiten kommen kann, etwa dass die Erde eine Scheibe ist oder kaltes Wetter uns sagt, dass Klimawandel eine Finte ist. Wenn die Trainingsdaten nicht sauber kuratiert sind, kann das Fehlinformationsproblem der GenAI nicht eingedämmt werden. Solches Datenkuratieren aber kostet richtig Geld bei den Mengen an Daten, die erforderlich sind.

Die GenAI und ihre Vorurteile

Erst jetzt kommen wir zu dem Problem der Wahrheitsverzerrung bei dem Versuch, Vorurteile (sogenannte Biases) aus den KIs zu entfernen. Da reicht es nicht, dass man mithilfe von Listen toxischer Wörter Begriff für Begriff festlegt, die KI solle schwarze Menschen etwa nie mit dem N-Wort bezeichnen oder sie solle nie über Sex reden. Denn es gibt andere Proxys wie die Farbe Schwarz, ärmere Wohngegenden oder kurze Röcke, die die GenAIs doch wieder dazu verleiten, rassistisch, sexistisch oder hegemonial zu argumentieren, einfach weil in den Milliarden Datensätzen, die hier ungefiltert zugrunde gelegt werden müssen, diese unliebsamen Wahrheiten unserer Menschheit und unseres Denkens da sind. Wahrheiten, mit denen wir uns eigentlich kritisch auseinandersetzen sollten, statt sie krampfhaft oder heimlich zu löschen zu versuchen, damit sie uns unsere KI-Schöpfungen nicht vor die Nase halten.

Keiner weiß, was die KIs wirklich tun

Damit kommen wir zum technischen Problem der Transparenz. Obwohl KI-Anbieter heimlich Informationen löschen könnten oder fiktive "Data Silence" zu einer bestimmten Person herstellen könnten, ist ihre größte Herausforderung, dass sie selbst nicht wissen, was ihre Maschinen da tun. Denn GenAIs sind – wie der Name schon sagt – "generisch". Sie sind, wie IBM das beschreibt, "generisch variabel". Das heißt, dass sie bei jeder Ausgabe immer ein bisschen anders schreiben, malen oder vorschlagen. Aber zu erklären, wie genau sie darauf kommen, beziehungsweise dieses Ergebnis simulierbar, vorhersehbar oder reproduzierbar zu machen, das ist nicht möglich; geschweige denn – darauf aufbauend – eine verlässliche "Erklärbarkeit" herzustellen.

Eine geflickschusterte Erklärbarkeit ist das natürliche Folgeproblem der Situation, dass man schlichtweg nie genau weiß, wie die Deep Neural Networks approximieren. Eines der ursprünglichsten und wichtigsten Prinzipien der Informatik, dass Maschinen-Output konsistent und verlässlich sein muss, wird von den GenAIs aufgebrochen.

Das führt auch zu dem Urheberrechtsproblem, dass sowohl Bilder als auch Softwarecode und Textpassagen im KI-Training genutzt werden könnten, die eigentlich dem Urheberrecht unterliegen. Weder kann aber der Urheberrechtsbesitzer leicht nachweisen, dass seine Inhalte benutzt wurden, noch kann der KI-Anbieter nachvollziehen, ob Bilder, Text- oder Codepassagen, für die er zahlen müsste, maßgeblich waren.

Kollision mit Werten und Rechten

All diese bisher ungelösten und auch schwer lösbaren technischen Probleme führen zur Verletzung von Werten, die laut der EU-Grundrechtecharta eigentlich geschützt sein sollten: Privatsphäre, Würde, Wahrheit, Gleichheit und Besitz. Diese sind jedoch nur die Spitze des Eisbergs. Noch gar nicht angesprochen wurde, dass es durch die GenAIs zu massenhaften Deep Fakes kommen könnte. Menschen, ihr Aussehen, ihre Stimme, Videos von ihnen und Anrufe können mit einer nie da gewesenen Einfachheit gefälscht und in die Welt hinausgeschickt werden.

Und verantwortlich ist dafür wer genau? (Sarah Spiekermann, 30.6.2023)