Um den Krebs zu besiegen, ließ sich der Niederländer Ruud van Noorden seinen Kehlkopf entfernen. Der Eingriff befreite ihn von der Krankheit, aber kostete ihn seine Stimme. Sprechen kann er nur noch leise und mithilfe einer Stimmprothese in Form eines kleinen Silikonventils. Gerade in lauten Umgebungen oder bei Telefonaten fällt es seinen Gesprächspartnern aber immer wieder schwer, ihn zu verstehen.

Doch dank seinem Landsmann Joris Castermans kann Ruud über drei Jahre nach dem Eingriff nun wieder mit seiner "alten" Stimme sprechen. Castermans hat 2018 das Start-up Whispp gegründet. In jungen Jahren war er selbst von starkem Stottern betroffen. Der Name der Firma bezieht sich auf das neurologische Phänomen, dass Menschen, die stottern, oft flüssig sprechen können, wenn sie flüstern.

Die App des Unternehmens – auch sie nennt sich Whispp – verspricht, all jenen wieder eine kräftige, verständliche Stimme zu verleihen, die keine mehr haben. Sie richtet sich an Menschen nach medizinischen Eingriffen, Betroffene von Erkrankungen wie Parkinson und auch jene, die aufgrund ihres fortgeschrittenen Alters nur noch leise sprechen können. Das Programm arbeitet dabei mit einem eigenen KI-Modell. Entgegen dem Eindruck, den man gewinnen könnte, setzt dieses nicht auf eine Form von Sprachsynthese, bei der versucht wird, das Gesagte als Text zu rekonstruieren und anschließend "vorlesen" zu lassen. Sondern auf die Wiederherstellung des akustischen Signals, wie es ohne die Stimmeinschränkungen klingen würde, erklärt Castermans im Gespräch mit dem STANDARD.

Whispp Live-Demo
Whispp

Individualisierbares Stimmmodell

Nutzerinnen und Nutzern stehen dabei zwei Varianten offen. Die niederschwellige Option ist es, eines von mehreren vorgefertigten Modellen zu verwenden. Von diesen werden aktuell 25 angeboten, sie unterstützen sechs Sprachen (Englisch, Niederländisch, Deutsch, Spanisch, Französisch, Koreanisch) und bieten für jede mindestens zwei weibliche und zwei männliche Stimmen. Grundsätzlich funktioniert Whispp aber aufgrund seiner Umsetzung mit jeder Sprache. Die verschiedenen Modelle sorgen lediglich für unterschiedliche Akzente.

Man kann aber auch ein Sprachmodell der eigenen Stimme erstellen. Hierzu gibt es zwei Möglichkeiten. Man kann in der App eine Reihe von Sätzen einsprechen und das Stimmmodell automatisch erzeugen lassen. Wer aber bereits eine angeschlagene Stimme hat, der kann den Entwicklern Audioaufnahmen seiner "alten" Stimme zur Verfügung stellen, die daraufhin für 200 Euro manuell ein Stimmmodell konfigurieren. In Zukunft will man eine dritte Option implementieren. User sollen die Möglichkeit bekommen, eines der bestehenden Stimmmodelle im Klang anzupassen.

Sehr guter Ersteindruck

Im Test der für Android und iOS verfügbaren App bestätigt sich die Aussage von Castermans. In der Tat kann man auch mit einer "koreanischen" oder "spanischen" Stimme die eigenen Flüsterbotschaften in gut hörbares Gesprochenes umwandeln, allerdings schlägt sich im Ergebnis dann ein deutlicher Akzent nieder. Ein eigenes Modell zu erzeugen klappt grundsätzlich auch. Während die eigene Stimme damit recht gut rekonstruiert wird, ist bei der Intonation ein klarer Einschlag zu bemerken, der wohl aus dem Niederländischen stammt.

Momentan kann man mit Whispp nur Botschaften aufnehmen und dann als Sprachnachricht verschicken. Das soll sich aber bald ändern. Man ist bereits so weit, dass man Gesagtes bzw. Geflüstertes praktisch in Echtzeit rekonstruieren kann. Das zeigte man nicht nur in einem Werbevideo vor, sondern auch in einer Livedemonstration am Stand. Whispp-CTO Akash Raj sprach dabei flüsternd in ein Mikrofon. Das Ergebnis war die per Kopfhörer klar klingende Sprechstimme von Raj, der man nur fallweise anmerkte, dass sie künstlich verbessert wurde. Gerade beim Telefonieren übers GSM-Netz oder eine App würde die leichte Verzerrung wohl kaum auffallen.

Das Team von Whispp am MWC 2024: CTO Akash Raj, Software Engineer Thom Leenman, AI-Entwickler Tatsu Matsushima und CEO Joris Castermans (v.l.n.r.)
CTO Akash Raj, Software Engineer Thom Leenman, AI-Entwickler Tatsu Matsushima und CEO Joris Castermans (v. li. n. re.).
DER STANDARD/Pichler

Die Latenz bei dem Test, in dem die Eingabe einen Umweg über die Cloudserver von Whispp machte, lag laut Raj bei rund 200 Millisekunden, was zu Telefoniezwecken absolut akzeptabel ist. In der Praxis kann sie schwanken, basierend darauf, wo man ist und wie gut die Verbindung zu den Servern ist. Die Verwendung einer KI, die rein Audio-zu-Audio-basiert arbeitet, wird hier zum Vorteil. Würde man auf Texterkennung und Sprachsynthese setzen, wären mehrere Sekunden Verzögerung zwischen Input und Output die Folge.

Flüsterleise im Zug telefonieren

Eine wichtige Voraussetzung gibt es aber auf Nutzerseite. Man muss noch in der Lage sein, Worte einigermaßen gut formen zu können. Wird die Aussprache zu undeutlich, versagt das System. Für solche Fälle, etwa wenn eine Parkinson-Erkrankung weit fortgeschritten ist, gibt es andere Hilfsmittel, die man heranziehen kann, sagt Castermans. Man habe hier Tests durchgeführt und festgestellt, dass es sehr schwierig sei, die eigene Methode hier verlässlich anzuwenden. Derzeit arbeitet Whispp gemeinsam mit einem großen niederländischen, auf Krebs im Halsbereich spezialisierten Gesundheitsinstitut zusammen, um in einer großangelegten Untersuchung die Funktionsweise der App mit Kehlkopfkrebspatienten zu validieren.

In Sachen Kommerzialisierung will man aber den eigenen Dienst nicht nur direkt an User verkaufen, sondern die Technologie auch für die Weiterverwertung verfügbar machen. Derzeit befindet man sich im Gespräch mit verschiedenen Mobilfunkbetreibern, die in Zukunft etwa gegen Aufpreis zum Handytarif die Stimmrekonstruktion von Whispp als Service anbieten können. Nicht nur für Privatkunden, sondern auch Firmen. Castermans sieht nämlich auch abseits des medizinischen Bereichs Potenzial. So könnte man etwa selbst mit angeschlagener Stimme remote an Meetings teilnehmen oder im Zug sprichwörtlich flüsterleise telefonieren, um andere Mitfahrende nicht zu stören. (gpi, 1.3.2024)