Bild nicht mehr verfügbar.

Der Datenverkehr zwischen smarten Lautsprechern und den Servern ihrer Hersteller könnte für die NSA eine wahre Goldgrube sein.

Foto: AP

Nachdem Smartphones beinahe jede Hosen-, Jacken- oder Handtasche erobert haben, machen sich seit einiger Zeit smarte Lautsprecher dazu auf, zum Mitbewohner unserer vier Wände zu werden. Amazons Alexa, der Google Assistant, Microsofts Cortana und künftig auch Apples Siri lauschen unseren Kommandos und sollen uns den Alltag erleichtern, indem sie auf Zuruf unsere Lieblingsmusik abspielen, Fragen beantworten oder andere Geräte steuern. Dank kluger Algorithmen sind sie in der Lage, zu erkennen, welcher Nutzer mit ihnen kommuniziert.

Dieser technologischen Innovation milliardenschwerer Konzerne ist der US-Geheimdienst NSA allerdings weit voraus, berichtet nun The Intercept auf Basis von Dokumenten, die einst Edward Snowden gekapert hat. Diese dokumentieren, wie die Technologie, genannt "Voice RT", seit 2004 stetig verbessert und eingesetzt wurde.

Schon seit 2007 im Einsatz

Belegt wird mit den Dokumenten etwa, dass damit Anrufe an mehr als 100 iranische Delegierte analysiert wurden, als der einstige Präsident Mahmoud Ahmadinedjad 2007 nach New York reiste. 2009 nutzte man es zur Nachverfolgung des Stabschefs des irakischen Militärs – trotz der Warnung, dass man für eine zuverlässige Erkennung womöglich nicht über genug Aufnahmen verfüge.

Auch der britische Geheimdienst GCHQ hatte zu diesem Zeitpunkt bereits ein eigenes Stimmerkennungssystem am Start. "Broad Oak" soll zu dieser Zeit weiter entwickelt gewesen sein, als "Voice RT". Die Briten boten Zusammenarbeit bei der Erkennung von Zielpersonen im Mittleren Osten an. Spätestens ab 2010 kam es dann auch zu Kooperation bei der Entwicklung.

Voiceprints

Die Basis für die Zuordnung von Stimmen zu Personen bilden, wie auch bei den Systemen von Amazon und Co., sogenannte "Stimmabdrücke" (Voiceprints). Ein Algorithmus errechnet aus einer Reihe von Aufnahmen einer Person ein typisches Stimmmuster, das er wiedererkennen kann. Dabei gilt grundsätzlich: Je mehr Aufnahmen vorliegen, desto akkurater kann das System arbeiten. Freilich ist die Entwicklung nicht stehen geblieben und die Erkennung wurde stets schneller und genauer.

Allerdings bekam man es auch mit neuen Hürden zu tun. Schon 2007 stellte man fest, dass manche Zielpersonen offenbar Stimmmodulation nutzten, um möglichst anonym zu bleiben. Sicherheitsexperten stellten die Vermutung an, dass einige Verantwortliche für einen versuchten Bombenanschlag in Detroit 2009 so den Geheimdiensten durch das Netz gehen konnten. 2010 führte man schließlich eine neue Lösung namens "HLT Lite" ein, die gezielt nach veränderten Stimmen suchte und dazu beitrug, diese zu "enttarnen".

Die NSA nutzte ihr Stimmerkennungssystem allerdings nicht nur gegen externe Ziele. Beretis 2006 war die Rede davon, dass "Stimmabgleichtechnologien" auch bei der im Aufbau befindlichen Insider Threat Initiative Verwendung fänden. Offiziell vorgestellt wurde diese Initiative allerdings erst nach dem Fall Chelsea Manning.

Offene Fragen

Wie The Verge nun herausstreicht, werfen diese Enthüllungen einige Fragen auf. Dank der smarten Lautsprecher werden immer mehr Stimmdaten in die Cloud übertragen und dort teilweise auch gespeichert. Sich hier zwischen Nutzer und Server zu schalten, gäbe der NSA Zugriff auf einen riesigen und wachsenden Schatz an Aufnahmen. Über die Analyse der Sprachkommandos wäre es ein leichtes, einen genauen "Stimmabdruck" des Eigentümers eines solchen Gerätes zu errechnen.

Dieser Weg könnte auch besonders verlockend sein, da Sicherheitsforscher bislang daran scheitern, jene Sperre aus der Ferne zu knacken, die dafür sorgt, dass Aufnahme und Übertragung erst passieren, wenn das Gerät mit dem entsprechenden Startkommando (etwa "Okay, Google", "Alexa", "Hey, Cortana" und "Hey, Siri") aktiviert wird. (gpi, 23.01.2017)