Stephan Hawking
Stephen Hawking war eine der ersten bekannten Personen, die mit einer künstlichen Sprachausgabe kommunizierten.
imago images/Everett Collection

Die meisten Menschen sind mittlerweile an Sprachassistenten und ihre künstlichen Stimmen gewöhnt. Siri, Alexa, Cortana und etliche andere digitale Assistenten erobern unsere Wohnzimmer und Küchentresen. Sie versuchen, auf Fragen so zu antworten, wie es auch ein Mensch tun würde. Doch das gelingt nicht immer. Viele dieser Systeme beenden Sätze im immergleichen Tonfall, unabhängig davon, ob es sich um eine lange oder kurze Aussage handelt. Solche Feinheiten können zu Situationen führen, in denen es für den Millibruchteil einer Sekunde für das Gehirn schwierig wird, festzustellen, ob es sich um einen Menschen handelt oder nicht.

Die Entwicklung in diesem Bereich ist nicht zuletzt durch immer mächtigere künstliche Intelligenz rasant. Mussten für Sprachassistenten früher wochenlang Texte und Textfragmente aufgenommen werden, ist es mit entsprechender Software mittlerweile in wenigen Minuten möglich, jede beliebige Stimme zu klonen. Das ist Segen und Fluch zugleich. Zum einen öffnet das Falschnachrichten, Missbrauch und Betrug Tür und Tor. So kann man bekannten Persönlichkeiten gefälschte Aussagen unterjubeln, aber auch Privatpersonen oder Banken und Behörden mit den geklonten Stimmen hinters Licht führen.

Wer die Stimme verliert

Doch es gibt auch einige vielversprechende Einsatzmöglichkeiten. Abgesehen von der Möglichkeit, der Nachwelt und seinen Liebsten die eigene Stimme und somit einen Teil der eigenen Identität zu hinterlassen, kann die Technologie auch Menschen helfen, die ihre Stimme zu verlieren drohen. Das ist etwa bei der seltenen Krankheit Amyotropher Lateralsklerose (ALS) der Fall. Aber auch nach einem Schlaganfall oder nach extremen psychischen Stresssituationen können die Stimme und kognitive Funktionen zumindest für einige Tage versagen.

Die Möglichkeiten der Technologie hat auch der US-Konzern Apple erkannt. Im Herbst 2023 führte das Unternehmen die Funktion "Persönliche Stimme" als Teil seiner barrierefreien Funktionen für die breite Masse ein. Mit 15 Minuten Audiomaterial kann man nun seine synthetische Stimme erzeugen – vorausgesetzt, man besitzt eines der neueren Smartphone-Modelle. Jeder eingegebene Text kann schließlich so ausgegeben werden, wie wenn man selber sprechen würde.

Apple Siri, Amazon Alexa, Google Voice
Alle Techkonzerne wie Apple, Amazon und Google setzen längst auf Sprachassistenten.
AP/Mark Lennihan

Diese Umwandlung von Text in Sprache ist eigentlich nicht neu, man kennt solche Systeme unter anderem von Stephen Hawking. Doch während in seinem Fall die Stimme klar als maschinell erzeugte Stimme erkennbar war, kann moderne KI den Stimmklang und das individuelle Sprechverhalten einer Person präzise imitieren. Bereits mit einfachen Lauten und kurzen Wörtern können KI-Modelle so trainiert werden, dass sie die menschliche Stimme einer Person imitieren.

Open Source als Vorteil

Insbesondere frei verfügbare, also Open-Source-Modelle seien dafür gut geeignet, denn sie werden ständig mit Audiodateien trainiert, die auch Störgeräusche enthalten, erklärt Thomas Moder von der TU Graz: "Je mehr Varianz in den Ursprungsdaten, desto besser kann man am Ende die menschliche Stimme imitieren." Im Rahmen seiner Masterarbeit arbeitet er ebenfalls an einem System, das Menschen mit einer Sprachbehinderung ermöglichen soll, besser mit ihren Mitmenschen zu kommunizieren. Dabei steht ihm Roman Kern als Betreuer zur Seite. Kern ist Associate Professor am Institute of Interactive Systems and Data Science an der Universität Graz sowie Chief Scientific Officer im Know-Center in Graz.

Moder wählt für seine Arbeit ein KI-Modell aus, das anfangs nur auf Englisch, Französisch und Portugiesisch funktionierte. Dann trainierte er dem Modell die deutsche Sprache an: "Es war echt ein super Moment, als es auch deutsche Wörter ausspuckte", so Moder. Bereits wenige Sekunden bis eine Minute Audiomaterial sollen ausreichen, um das Modell so zu trainieren. Dabei zielt man auf die Balance zwischen einfach verfügbarem Datenmaterial und der gewünschten höchstmöglichen Ausgabequalität. Moder zufolge würden die generierten Stimmen bereits "verdächtig real klingen".

14 Minuten schneller als Apple

Die Verwendung des Open-Source-Modells "YourTTS" hat den Forschenden zufolge mehrere Vorteile. Einerseits kommt es mit relativ wenig Datenmaterial aus, laut Masterarbeit-Betreuer Kern könne man das Modell auch lokal verwenden, also auf eigenen Computern laufen lassen, was datenschutzrechtlich positiv ist. Dass die Stimme mit nur einer Minute Audiomaterial und also um 14 Minuten weniger als bei Apple erzeugt werden kann, würde den Vorgang für Betroffenen erleichtern, von denen noch kein Audiomaterial existiert oder die sich sehr schwer mit dem Sprechen tun. "Viele Menschen mit Spracheinschränkungen können keine langen Sätze einsprechen. Es braucht also andere Lösungen", ist Moder überzeugt.

Dass das Klonen von Stimmen auch negative Seiten haben kann, ist auch den Grazer Forschenden bewusst. "Das Problem bei biometrischen Fingerabdrücken aller Art ist, dass sie, einmal veröffentlicht, für immer missbraucht werden können", erklärt Kern. Gerade prominente Personen könnten sich kaum davor schützen, dass ihre Stimme gestohlen werde. Trotzdem betont Kern die Vorteile der synthetischen Sprache. Bei Voice-Cloning denke man oftmals an Deepfakes und kriminelle Anwendungen. In der aktuellen Arbeit stehe aber klar der Mensch im Mittelpunkt. "Das erlaubt auch wieder einen positiveren Blick auf künstliche Intelligenz", sagt Kern. (Sebastian Lang, 17.2.2024)