Hätte die im Auftrag der GIS tätige Firma synthetische Daten statt echter Meldeeinträge verwendet, wäre der Leak vom Testserver zumindest aus Privacy-Sicht nicht schlimm gewesen.

Foto: imago images/Panthermedia

Beliebtheitspreise dürfte die GIS so schnell keine gewinnen. Als zuständige Stelle für die Einhebung der Rundfunkgebühren, ein politisch ohnehin heißes Eisen, ist sie dafür auch nicht prädestiniert. Wenn sie dann auch noch durch mangelnde Vorsicht Daten verliert, ist dies dem Ansehen ebenfalls nicht zuträglich.

Menschliches Versagen sorgte dafür, dass 2020 neun Millionen Meldedaten in die Hände von Hackern gelangten. Ein externer Dienstleister hatte diese auf einen Testserver kopiert. Der war allerdings nicht ausreichend abgesichert und der Abruf der Informationen aus dem Netz möglich. Namen, Geburtsdaten und Meldeadressen landeten so in den Händen der Cyberkriminellen. Die mutmaßlich für den Angriff verantwortliche Person wurde vergangenen November in den Niederlanden verhaftet.

Es hätte aber viel glimpflicher kommen können. Natürlich sollten auch Testserver adäquat gesichert sein, doch menschliches Versagen ist ein nie auszuschließender Faktor. Daher gebietet es sich, wertvolle Daten nur dann zu verwenden, wenn dies für den Einsatz unumgänglich ist. Für die Tätigkeiten der GIS rund um die Erhebung und Abrechnung der Rundfunkgebühren werden die Meldedaten natürlich gebraucht. Doch um ein neues Datenbanksystem für die GIS auf einem Server zu testen, nicht.

KI-Daten statt echter Meldeeinträge

Der Einsatz synthetischer Daten hätte zwar nicht gegen die mangelnde Sicherheit der Testumgebung geschützt, aber den Angreifern die fette Beute verwehrt und den Datenschutz gewahrt. Darauf weist die Firma Mostly AI hin. Freilich nicht ganz uneigennützig, denn immerhin ist die Synthetisierung von Daten das Kerngeschäft des Wiener Unternehmens.

Statt reale Meldedaten hochzuladen, wäre es hier möglich gewesen, von einer künstlichen Intelligenz (KI) erzeugte Informationen zu verwenden. Diese hätten die gleiche Struktur und den gleichen Informationswert aufgewiesen und es damit ermöglicht, die neue Datenbank unter realistischen Bedingungen zu testen.

"Wären auf dieser Testdatenbank synthetische Daten gespeichert gewesen, dann hätte der Hacker lediglich fiktive Meldedaten erbeutet, und die Privatsphäre von Millionen von Österreicherinnen und Österreichern wäre nicht betroffen gewesen", sagt Tobias Hann, CEO von Mostly AI, der aktuell das US-Geschäft der Firma in New York aufbaut. Er beschäftigt über 50 Mitarbeiter aus 25 verschiedenen Ländern. Der Großteil arbeitet im technischen Bereich, ein Kernteam von fünf Personen verantwortet die Weiterentwicklung des hauseigenen KI-Modells.

EU-Forschungsrat sieht großes Potenzial

Einiges Potenzial in synthetischen Daten sieht auch der Joint Research Centre der Europäischen Union. Der Einsatz von Deep Learning, also in diesem Fall das Trainieren einer KI mit bestimmten Datenbeständen für deren akkurate Nachahmung, habe eine Reihe von Vorteilen im Vergleich zu den statistischen Rechenverfahren, die zuvor genutzt wurden, heißt es in einem Bericht von 2022. Die Erzeugung mittels KI lasse sich gut skalieren, man habe volle Kontrolle über den Datenschutz, und die Vergleichbarkeit der produzierten Daten mit ihrer realen Vorlage sei sehr hoch.

Allerdings ist dafür im Vorfeld erheblicher Aufwand bei der Vorverarbeitung der Lerndaten notwendig. Andernfalls bestehe die Gefahr, das für die Auswertung verantwortliche neurale Netzwerk zu "verwirren". Zwar gibt es Open-Source-Lösungen für die Erstellung synthetischer Datensätze, diese sind aber noch auf simplere Datenstrukturen limitiert, während in kommerziellen Lösungen die neuralen Netzwerke mit heuristischen Filtern und anderen Elementen ergänzt werden.

Nachsatz: "Das Feld entwickelt sich sehr schneller weiter, und wir können schon in naher Zukunft mit kompetitiven Open-Source-Lösungen rechnen." Man empfiehlt dringend, mögliche praktische Anwendungsbereiche weiter zu erforschen, da man der Technologie großes Potenzial bei geringem Risiko bescheinigt.

Es gebe keine Datenschutzprobleme und sei sehr kosteneffizient, heißt es weiter in der Conclusio. Zudem könnten bei der Synthetisierung der Vorlagedaten bestimmte Schwächen – etwa die Marginalisierung von Minderheiten als Folge statistischer Aggregierung – ausgemerzt werden. Mit ihnen ließen sich auch Algorithmen und KI-Modelle auf ihre Tauglichkeit und Bias testen, die von staatlicher Seite eingesetzt werden. Zudem könne man sie unproblematisch zur Überprüfung durch Forschende zur Verfügung stellen.

"Rückübersetzung" nicht möglich

Dass synthetische Daten auf der Auswertung realer Informationen fußen, wirft allerdings die Frage nach der Rückverfolgbarkeit auf. Kann man etwa aus fiktiven Meldeeinträgen wieder reale Namen, Adressen und Geburtsdaten erzeugen? "Nein", sagt Mostly AI-Chef Hann. Diese "Rückübersetzung" sei nicht möglich. "Weder für einen möglichen Angreifer noch für den, der die Daten synthetisiert hat." Hier wird es zum Vorteil, dass moderne KIs zum Teil eine Black Box sind und auch ihre Entwickler selbst den Generierungsprozess der einzelnen Informationen nicht genau nachvollziehen können.

Nutzbar sind synthetische Daten auch im Bereich von Onlinewerbung und -marketing. Wenn hier Anbieter Plätze für zielgruppenbasierte Werbung verkaufen, werden die zugrundeliegenden Daten der Nutzer, an die die Anzeigen ausgespielt werden sollen, im Vorfeld üblicherweise aggregiert. Diese Zusammenfassung sorgt dafür, dass eine Rückführung von Informationen auf einzelne User nicht mehr möglich ist. Allerdings verliert man damit auch die Möglichkeit für Analysen auf granularer Ebene.

Eine solche könnte eine Synthetisierung bieten, erklärt Hann. "Werbung an synthetische Kunden zu versenden ist allerdings natürlich nicht möglich. Die Erkenntnisse der Analysen – zum Beispiel welche Zielgruppe für ein bestimmtes Mailing besonders attraktiv erscheint – müssen dann auf die Echtdaten angewendet werden."

Interesse steigt, auch dank Datenschutzes

Einige Branchen zeigen laut dem Mostly-CEO schon besonders reges Interesse. Stark am Ball sind Banken, Versicherungen und Unternehmen aus dem Telekommunikationsbereich. Auch im Gesundheitsbereich fangen immer mehr Unternehmen an, mit synthetischen Daten zu arbeiten.

Bei Mostly rechnet man mit weiter wachsendem Interesse an der Technologie. Das liegt nicht zuletzt am Ausbau des Datenschutzes weltweit. Das Marktforschungsunternehmen Gartner schätzt, dass bis 2030 die große Mehrheit der von KI-Modellen genutzten Daten synthetischer Natur sein wird, während bis Ende 2024 drei Viertel aller Menschen weltweit von Datenschutzgesetzen profitieren dürften.

In der Europäischen Union gelten bereits entsprechende Richtlinien, auf denen in Österreich die Datenschutz-Grundverordnung (DSGVO) fußt. Diese hält Hann für eine "sehr gute rechtliche Grundlage", die aber nicht immer mit ausreichender Konsequenz umgesetzt werde. Auch staatliche Stellen werden im Lichte dessen in Zukunft vermehrt auf KI-generierte Daten zurückgreifen, zeigt er sich überzeugt. Die Notwendigkeit weiterer gesetzlicher Vorgaben sieht er aktuell nicht. (gpi, 4.2.2023)