Eine der Versprechungen moderner KI-Sprachmodelle ist es, Internetsuchen einfacher und effizienter zu machen. Statt Suchanfragen auf die Logik der jeweiligen Suchmaschine hin zu optimieren, sollen dank des technologischen Fortschritts Sucheingaben in "menschlicher" Sprache gleiche oder bessere Ergebnisse liefern. Die KI analysiert dafür einerseits Echtzeitsuchergebnisse und kann auch aus ihrem umfangreichen Schatz an Trainingsdaten zehren. Das birgt freilich auch Risiken im Hinblick auf den Datenschutz, weswegen Entwicklerfirmen verschiedene Schranken einziehen. Diese sollen beispielsweise vermeiden, dass ihre Modelle Stalking und anderweitige Belästigung vermeiden. Eine davon ist, im Falle der GPT-Modelle von OpenAI, dass Auskünfte zu Daten von Privatpersonen verweigert werden. Das, so zeigen Forscher der Indiana University, klappt aber nicht zuverlässig.

Konkret geht es um GPT-3.5 Turbo. Es handelt sich um eines der umfangreichsten und am weitesten entwickelten Modelle von OpenAI und war vor der Veröffentlichung von GPT-4.0 auch die Grundlage des Konversations-Bots ChatGPT. Wer das Modell über eine App nutzt, erhält hier auch keine Auskunft über private Mailadressen. Anders sieht das allerdings aus, wenn man die KI direkt über ihre Programmierschnittstelle (API) anspricht.

80 Prozent der Mailadressen korrekt

Das Team von Rui Zhu meldete sich diesbezüglich beim "New York Times"-Journalisten Jeremy White und wies nach, dass man mit einigen Anpassungen der Suchanfrage der KI seine private E-Mail-Adresse habe entlocken können. Auch die persönlichen Mailadressen anderer Mitarbeiterinnen und Mitarbeiter der renommierten Zeitung hatte man so erfahren. In manchen Fällen stimmten einzelne Buchstaben nicht, oder die komplette Adresse war von der KI "halluziniert" worden. 80 Prozent der gelieferten Mailadressen stimmten jedoch.

Ein humanoider Roboter hält Dokumente. Dieses Symbolbild wurde mit Midjourney generiert.
Können wir den KI-Modellen zutrauen, private Informationen aus ihrem Datenbestand nicht auszuplaudern? Experten sagen derzeit: Nein. Dieses Symbolbild wurde mit Midjourney generiert.
DER STANDARD/Pichler/Midjourney

Whites private Mailadresse ist kein großes Geheimnis. Wer sie wissen möchte, kann sie auch über eine normale Websuche wohl schnell herausfinden. Allerdings soll GPT-3.5 laut OpenAI eigentlich jegliche Auskunft zu Fragen nach privaten Kontaktdaten verweigern, egal ob diese anderweitig einfach nachzuschlagen sind oder nicht.

Dass das hier nicht der Fall war, ist ein Problem. Denn es ist durchaus möglich, dass im riesigen und stetig wachsenden Konvolut an Trainingsdaten solcher KI-Modelle auch Informationen landen, die nie öffentlich hätten sein sollten. Doch die Sicherheitsschranken funktionieren bei "feingetunten" Modellen nicht so wie geplant. Wenn man sie über die API anspricht, akzeptieren sie Anfragen, die auf anderem Wege verweigert würden.

Blackbox Trainingsdaten

Und welche Informationen sich genau in den Trainingsdaten befinden, ist für Außenstehende unbekannt und dürfte auch bei den KI-Entwicklern nur einem kleinen Kreis einsehbar sein. OpenAI gibt dazu an, dass man keine Inhalte von Seiten aggregiere, die "primär persönliche Daten sammeln." Sehr wohl enthalten sind aber etwa jene Dokumente, die öffentlich wurden, als die US-Energiebehörden in den 2000ern gegen den Enron-Konzern ermittelten. Diese Daten enthalten hunderttausende E-Mails, die KIs helfen, menschliche Sprache zu imitieren. Allerdings gehören zum Bestand auch tausende Namen und Mailadressen.

"Soweit mir bekannt ist, ist kein kommerziell verfügbares Sprachmodell gut abgesichert, um die Privatsphäre zu wahren", zitiert die "New York Times" Prateek Mittal, Computerwissenschafter an der Princeton University. Ihre Hersteller seien nicht in der Lage zu garantieren, dass ihre KIs sensible Informationen erlernt haben, was er als "riesiges Risiko" betrachtet.

Das Problem sei ähnlich wie beim Training solcher Modelle mit toxischen Inhalten oder Stereotypen, sagt der Forscher: "Es gibt keinen Grund anzunehmen, dass die veröffentlichten Modelle (die Daten, Anm.) geheim halten oder auf magische Weise keinen Schaden anrichten."

Schnell lösbar ist das Datenproblem außerdem nicht. Einmal von Sprachmodellen "verinnerlichte" Informationen lassen sich nicht einfach löschen. Man müsste neue Modelle trainieren und dabei sicherstellen, dass derlei Informationen in den Trainingsdaten gar nicht erst vorkommen. Das ist allerdings aufwendig und teuer, entsprechende Vorstöße wurden von den Herstellern bislang kategorisch abgelehnt.

Ein Paper zur Arbeit der Forscher wurde auf Arxiv veröffentlicht. (gpi, 27.12.2023)