Digitale Sprachkommunikation ohne der Unterdrückung von Störgeräuschen ist heute kaum noch vorstellbar. Denn ohne Hilfsmittel dieser Art würde schon gewöhnlicher Straßenlärm ein Telefongespräch nahezu unmöglich machen. Doch trotz Weiterentwicklungen bei der Bauweise unserer Geräte und algorithmischer Hilfen ist noch einige Luft nach oben.

Das ist auch ein Bereich, der am Fraunhofer-Institut für Integrierte Schaltungen (Fraunhofer IIS) beforscht wird. Unter dem Titel "Uphear" tüftelt man seit 2018 an Lösungen für bessere Sprachkommunikation – und potenziell der Geräuschunterdrückung der Zukunft. Die Spezialisten für Signalverarbeitung bedienen sich dabei nunmehr auch künstlicher Intelligenz.

KI als effektiver Lärmfilter

Im Kern dieser Preprocessing-Lösung steht ein kleines KI-Modell, dessen Kapazitäten man am Messestand am Mobile World Congress auch demonstrierte. Der Autor dieser Zeilen und ein Fraunhofer-Mitarbeiter fanden sich dazu in zwei schallisolierten Kabinen ein, in denen der Messelärm kaum noch wahrnehmbar war. Verbunden waren sie über zwei Smartphones, die mit Uphear ausgestattet waren. Ein zum Test eingespieltes Youtube-Video von lautem Verkehrslärm war ohne aktiviertes Uphear deutlich zu hören. Nach dem Einschalten der Lärmfilterung hingegen war es zu einem sehr leisen Rauschen im Hintergrund reduziert, während das Gespräch klar und deutlich in passabler Sprachqualität möglich war.

Für die zweite Probe schaltete der Forscher einen Handstaubsauger ein, der noch einmal deutlich lauter war als die Geräuschkulisse der Blechlawine. Auch hier konnte sich Uphear bewähren und ermöglichte flüssige Kommunikation, wenn auch mit etwas mehr Einbußen auf die Tonqualität der übertragenen Stimme. In der Grundeinstellung reduziert das System Störgeräusche um 30 Dezibel, möglich sind aber bis zu 60, was aber auch stärkere Kompromisse in der Sprachakustik bedingt. Die Demonstration verlief in jedem Fall überzeugend, denn die Verständlichkeit war stets gegeben.

Das System ist darauf ausgelegt, Sprache zu erkennen und alle anderen akustischen Einflüsse auszufiltern. Das verbleibende Signal wird anschließend noch zwecks Klangverbesserung optimiert, beispielsweise durch die Ausfilterung von Echo, ehe die Ausgabe erfolgt.

In der aktuellen Version findet sich Uphear auch schon in verschiedenen Geräten, darunter etwa Meeting-Equipment von Kandao, dem Xboom-Smart Speaker von LG und seit einigen Monaten auch zum ersten Mal in einem Smartphone. Nämlich dem Outdoorhandy Stellar X5 des Anbieters Crosscall. Neben der Kommunikation zwischen Menschen lässt sich Uphear auch für Human Machine Direction nutzen, also für das Sprechen mit Maschinen.

Foto eines Smartphones mit Uphear VQE-App
Das Smartphone mit laufendem Uphear in der schallisolierten Kabine.
DER STANDARD/Pichler

Target Speaker Extraction

Gedacht ist die Technologie als Ergänzung zu klassischer Geräuschunterdrückung. Auszeichnen soll sie sich durch geringen Ressourcenanspruch. Das KI-Modell kann lokal nicht nur auf Handys, sondern auch auf Kopfhörern laufen, ohne die Akkulaufzeit signifikant zu beeinträchtigen. Das Preprocessing dauert dabei nur wenige Millisekunden. Im Testlauf entsprach die Latenz dem Buffer des genutzten Audiosystems, erzeugte faktisch also keine Verzögerung bei der Kommunikation. Genutzt werden kann es auch über die Cloud und lässt sich damit auch Usern zugänglich machen, deren Gerät nicht ab Werk damit ausgestattet ist. Hier hängt der Grad der Verzögerung primär von der Verbindung zwischen Nutzern und Server ab.

Im nächsten Schritt wird Uphear nun um ein neues Feature erweitert, genannt "Target Speaker Extraction". Dieses soll ein Problem lösen, mit dem sich Geräuschunterdrückungssysteme schon länger plagen, nämlich parallel sprechenden Personen. Hierzu lässt sich Uphear vom Nutzer durch das Einsprechen eines kurzen Segments trainieren, um einen digitalen Fingerabdruck seiner Stimme zu erzeugen, anhand dessen es ihn künftig erkennt. Damit lässt sich dann die eigene Stimme verstärken und andere Stimmen ausblenden.

Uphear soll konventionelle Lösungen zur Geräuschunterdrückung nicht ersetzen, sondern ist als Erweiterung gedacht. Fraunhofer baut damit keine eigenen Geräte, sondern lizenziert die Technologie an Gerätehersteller und Dienstleister nach deren Bedürfnissen. Die konkrete Implementation und Monetarisierung obliegt dann den Lizenznehmern. (gpi, 9.3.2024)