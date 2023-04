Gesichtsbewegungen werden von "EchoSpeech" mit hoher Genauigkeit in Sprache übersetzt

Zum nächsten Lied springen mit den oft fummeligen Buttons oder Touchoberflächen auf drahtlosen Ohrhörern, kann nervig sein. Auch das Eingeben eines Entsperrcodes ist ungemütlich, wenn man etwa im Winter draußen unterwegs ist und die Handschuhe ausziehen müsste. Spracheingabe könnte in solche Szenarien eine Lösung sein, ist aber auch nicht in jeder Situation praktikabel.

Eine potenzielle Lösung dafür haben Forscher der Cornell University in New York entwickelt. Nachdem sie zuvor an Systemen für Spracherkennung mithilfe von Kameras und drahtlosen Ohrhörern gearbeitet haben, ist ihr neuestes "Baby" eine "Sonarbrille". Dabei handelt es sich um einen Brillenrahmen – wahlweise ausgestattet mit Gläsern zur optischen Fehlsichtkorrektur -, dan dessen Unterseite kleine Lautsprecher und Mikrofone angebracht wurden. Sie haben das System "EchoSpeech" genannt.

Ruidong Zhang

"Echo-Profil" für Sprachübersetzung



Die gewonnenen Daten durch das Aussenden von Schall in unhörbaren Tonfrequenzen und das Einfangen ihrer Reflexionen werden an ein Smartphone geschickt und dort ausgewertet. Zur Analyse dieser "Echo-Profile" zieht man ein KI-Modell heran, das sich vom Nutzer binnen weniger Minuten trainieren lässt. Dabei soll es reichen, einfach nur eine Reihe von Zahlen vorzulesen.

Gesichtsbewegungen können anschließend über die Brille ganz ohne stimmlicher Untermalung in Sprache übersetzt werden. Das System soll mit einem Prototypen dabei schon eine Genauigkeit von 95 Prozent erreichen und praktisch in Echtzeit arbeiten. Die Akkulaufzeit der Testbrille wird mit zehn Stunden beziffert.

Der aktuelle Prototyp. Foto: Cornell University/Ruidong Zhang

Hoffnung für Menschen mit eingeschränktem Sprechvermögen



Neben den erwähnten Szenarien sehen die Forscher als mögliche Anwendung die Verknüpfung mit einem Sprachsynthesizer. Menschen mit Einschränkungen des Sprechvermögens könnten auf diese Weise einfach per computergenerierte Stimme kommunizieren, ohne das Gesagte zuvor eintippen zu müssen oder Zeichensprache zu verwenden.

Derzeit untersucht man, ob man auf die gleiche Weise auch Augenbewegungen oder Bewegungen des Oberkörpers erfassen kann, was weitere Einsatzszenarien eröffnen könnte. Parallel dazu arbeitet man aber auch an der Kommerzialisierung von EchosSpeech, das Vorhaben wird von der Universität selbst finanziell mit einem Förderprogramm unterstützt. (gpi, 10.4.23)