Anhand echter Ereignisse errechnet eine KI digitale Doppelgänger. Diese sollen Datenanalyse ohne DSGVO-Probleme ermöglichen.

Foto: Getty Images/iStockphoto

Mitte März wurde in Österreich erstmals die Marke von mehr als neun Millionen Bewohnerinnen und Bewohnern überschritten. Vor allem der Ballungsraum Wien wächst, und die steigenden Bevölkerungszahlen müssen laufend evaluiert werden. In diesem Rahmen arbeitet die Stadt Wien an einem Projekt, der Öffentlichkeit eine anonymisierte Version des Bevölkerungsregisters zur Verfügung zu stellen.

"Wir wollen die Struktur und Veränderungen der 1,95 Millionen Menschen abbilden, ohne dass eine einzelne Person identifizierbar ist", sagt Ramon Bauer von der MA 23 (Wirtschaft, Arbeit und Statistik). Der Datensatz solle auf Open-Data-Basis etwa der Forschung und Wirtschaft zur Verfügung gestellt werden. "Dadurch lässt sich beurteilen, ob es Sinn hat, wegen der demografischen Beschaffenheit eines Gebiets gewisse Dienstleistungen anzubieten. Zum Beispiel im Gesundheitsbereich", sagt Bauer. Das Projekt stecke aber noch in den "Kinderschuhen".

Wie will Wien das machen? Dafür braucht es sogenannte synthetische Daten. Synthetische Daten halten für Berechnungen und Simulationen beim maschinellen Lernen her. Amazon trainiert etwa seine Alexa-Lautsprecher damit. Auch Bilderkennung für selbstfahrende Autos wird bereits mit solchen Daten trainiert. Diese Anwendungen klingen amerikanisch und weit entfernt, doch auch hierzulande gibt es das.

Kooperation mit Start-up

Die Stadt Wien kooperiert mit dem Wiener Start-up Mostly AI, das eine Plattform entwickelt hat, die ebensolche synthetisierten Datensätze erzeugt.

Algorithmen analysieren reale Ereignisse und erstellen daraus künstliche Datensätze, die den Originaldaten extrem ähneln. Sprich, Informationen und Zusammenhänge werden verknüpft und neu generiert. "Synthetische Daten sind komplett anonym, und die Privatsphäre von Menschen kann nicht verletzt werden", sagt Mostly-Geschäftsführer Tobias Hann im Gespräch mit dem STANDARD.

Beim Anonymisieren von Personendaten sinke einerseits die Datenqualität, andererseits seien sie mit wenig Aufwand immer noch identifizierbar. "Synthetische Daten machen flexibel, man kann Daten verändern, modifizieren oder relevante Sätze erzeugen." In den Anwendungsbereich der DSGVO fallen synthetisierte Daten übrigens nicht.

Millionenschwere Finanzierungsrunde

Im Frühjahr hat das 2017 gegründete Start-up in einer Finanzierungsrunde 25 Millionen Dollar eingenommen und will damit seine Präsenz in den USA verstärken. Zum Kundenkreis von Mostly zählen momentan allerdings eher Unternehmen aus der Finanz- und Versicherungsbranche wie die Erste Group oder die Bawag, aber auch der spanische Mobilfunker Telefonica.

Was macht die Finanzbranche mit synthetisierten Daten? Ein Anwendungsbeispiel ist die Betrugsbekämpfung im Bankensektor. Eine KI tut sich in der Regel schwer, Betrug zu erkennen, da es im Vergleich zu den Transaktionen nur wenige Betrugsfälle gibt. Ein Algorithmus lernt allerdings nur aus jenen Daten, die man ihm gibt. Synthetisch können beliebig viele künstliche Betrugsfälle erzeugt werden, um der KI mehr "Lernstoff" zur Verfügung zu stellen.

Mostly-Chef Hann sieht fast überall Potenzial für sein Geschäftsmodell. "Datenmengen über Kunden explodieren, es wird immer schwieriger, diese zu anonymisieren und sinnvoll damit zu arbeiten." Vor allem im Gesundheitsbereich kann sich Hann zahlreiche Anwendungsfelder vorstellen. Beispielsweise, wie welche Medikamente bei welchen Diagnosen bei Menschen in welchem Alter wirken. "Alles ohne höchstpersönliche Daten, was im Gesundheitsbereich besonders heikel ist." Mit den Daten selbst kommt Mostly AI nie in Kontakt, auf Abo-basis stellt das Unternehmen die Software zur Verfügung, die Kunden arbeiten eigenständig damit.

Vorsichtige Anwender

Dem Marktforschungsinstitut Gartner zufolge werden bis 2024 schon 60 Prozent der Daten für KI-Analysen synthetisch generiert werden. Der KPMG-Finanzexperte Janek Gallitschke kann sich das allerdings nicht vorstellen. "Die Technologie hat Potenzial und stellt eine gute Ergänzung für Datensätze dar. In der Masse verbreitet ist sie aber bei weitem noch nicht."

Er begründet das mit grundsätzlich vorsichtigem Verhalten von Finanzinstituten gegenüber maschinellem Lernen. "Die Regulatorik ist noch nicht ausgereift, und jede Entscheidung von einem Algorithmus muss erklärbar sein." In diesem streng regulierten Umfeld fehlten zudem noch die technischen Voraussetzungen und das Know-how, das erst aufgebaut werden müsse.

Große Zukunftshoffnungen in synthetische Daten hegt JPMorgan, die US-amerikanische Großbank investiert in eigene Hubs und sucht nach Anwendungsfeldern.

Heikle Daten

Trifft eine Kreditentscheidung also künftig ein Algorithmus auf Basis von Daten, die ein anderer Algorithmus berechnet hat? Gallitschke warnt vor Schnellschüssen: "Entscheidungen, wo Menschen etwas ge- oder verwehrt bekommen, sind sehr heikel." Wer mit synthetischen Daten arbeite, sollte jedenfalls Ahnung von der Materie haben. Synthetische Daten seien aber eine gute Möglichkeit, um unausgeglichene Datensätze zu harmonisieren und somit fairer zu gestalten. (Andreas Danzer, 18.5.2022)