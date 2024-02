Es war wohl nicht die beste Werbung für die automatisierte Anrufbetreuung der Nürnberger Sparkasse. Wie die "Nürnberger Nachrichten" dokumentieren, scheiterte ein Kunde namens Rudolf Kuhlmann nämlich mehrfach an "Anna". Unter diesem Namen kann bei Anrufen beim Geldinstitut ein Bot zwischengeschaltet werden, der grundlegende Daten abfragt und Informationen anbietet, ehe man an einen persönlichen Ansprechpartner überstellt wird.

Im konkreten Fall wollte Anna Kuhlmanns Geburtsdatum und Kontonummer wissen. Dieser teilte die gewünschten Informationen auch mit, wurde jedoch immer wieder aufgefordert, seine Angaben zu wiederholen. Letztlich gab sich Kuhlmann geschlagen und begab sich persönlich in seine Bankfiliale, um dort eine relativ simple Angelegenheit zu klären. Der Hotline-Bot hatte ihn aufgrund seines deutlichen fränkischen Spracheinschlags nicht verstanden, gab die Sparkasse später zu Protokoll. Wer mit Maschinen spricht, hat weiterhin mit Hochdeutsch die besten Chancen auf Erfolg.

Besonders hohe Fehlerquote bei ausländischen Akzenten

Der frustrierte Bankkunde ist allerdings kein Einzelfall. Akzente, die stärker vom "typischen" Sprachbild abweichen, stellen schon länger eine Herausforderung für Systeme dar, die auf Spracherkennung setzen. 2018 führte die "Washington Post" in Zusammenarbeit mit zwei Forschungsgruppen eine Untersuchung zu der Problematik in den USA durch. Darin zeigte sich etwa, dass bei Anfragen an Google Home Menschen mit Südstaatenakzent eine um drei Prozent höhere Chancen auf eine schlechtere Auskunft haben als jene mit Westküsteneinschlag. Bei Amazons Alexa hatten Akzente aus dem Mittleren Westen eine um zwei Prozent verminderte Chance darauf, korrekt verstanden zu werden, als Nutzer mit der sprachlichen Prägung der Ostküste.

Foto vom Trachten- und Schützenzug beim Oktoberfest 2023 in München. Gerade Akzente, die stärker vom Hochdeutschen abweichen, sind für Sprachassistenten schwieriger zu verstehen. IMAGO/Christian Einecke

Und wer einen ausländischen Akzent mitbringt, darf sich auf noch mehr Missverständnisse einstellen. Und wenn es um Entertainment-Befehle geht, ist der Graben noch breiter als sonst. Google Home verstand im Versuch rund 92 Prozent aller Kommandos mit Akzent aus den östlichen USA. Bei Testpersonen mit hispanischem Akzent waren es nur knapp 80 Prozent. Alexa lieferte das beste Ergebnis (91 Prozent) für Anfragen mit Südstaateneinschlag, chinesisch-amerikanische Benutzer mit entsprechender Sprachfärbung wurden in nur 81,5 Prozent der Fälle verstanden.

Nutzer passen sich an Mängel an

Eine Studie aus dem Jahr 2020, die Spracherkennungssysteme von Google, IBM, Amazon, Apple und Microsoft bei der Transkription strukturierter Interviews mit weißen und afroamerikanischen Probanden erprobte, ergab im Schnitt eine fast doppelt so hohe Fehlerrate für Letztere. In Großbritannien zeigte eine Erhebung des britischen Preisvergleichsportals Uswitch, dass die großen Sprachassistenten insbesondere mit walisischen und schottischen Akzenten Schwierigkeiten haben.

Die Verständnisschwierigkeiten wirken sich auch auf das Nutzerverhalten aus, wie eine 2018 veröffentlichte Untersuchung des Life Science Centre im britischen Newcastle zeigte. Aus der Befragung von 536 Besucherinnen und Besuchern ergab sich, dass 79 Prozent der Nutzer von Alexa, Sir und Konsorten ihren regionalen Spracheinschlag unterdrücken, wenn sie mit den Systemen interagieren. Eher wird also Konformität mit den Limitationen der Spracherkennung in Kauf genommen als sich wiederholende Probleme bei der Erfassung von Fragen und Kommandos. Das wirft natürlich auch Fragen im Hinblick auf den Erhalt der sprachlichen Vielfalt oder die Entstehung einer neuen Form von Diskriminierung auf.

Lösungen von "Global English" ...

Lösungen für die Defizite von Anna und Co sind aber in Sicht. Und werden mitunter auch schon länger erprobt. Die britische öffentlich-rechtliche Fernsehanstalt BBC brachte Mitte 2020 ihren eigenen Sprachassistenten Beeb in einer ersten Betaversion an den Start. Dieser sollte mit der Zeit KI-gestützt lernen, die verschiedenen regionalen Akzente im Vereinigten Königreich zu verstehen. Seit Ende 2020 ist es öffentlich allerdings still um das Projekt geworden.

Dank verschiedener Lösungsansätze könnten Alexa, Siri und Co in Zukunft besser mit Akzenten umgehen. REUTERS/MIKE BLAKE

Das Start-up Fluent AI, spezialisiert auf Spracherkennungsmodelle, stellte 2021 seine Lösung namens "Speech-to-Intent" vor. Statt nur konventionell das vom Nutzer Gesprochene in Text umzuwandeln und aus diesem Eingaben und Fragen abzuleiten, werden zusätzlich akustische Hinweise einbezogen. Elemente wie die Intonation sollen dem System besser verraten, was der User möchte. Damit will man auf Dauer cloudbasierte Transkription ersetzen und stattdessen ein Modell mit verkleinertem Vokabular direkt auf smarten Geräten laufen lassen.

Einen anderen Ansatz präsentierte Speechmatics für seine Transkriptionslösungen. Statt etwa jeweils nur ein akzentspezifisches Modell der englischen Sprache einsetzen zu lassen – was spätestens bei einem Gespräch zwischen zwei Personen mit unterschiedlichen Akzenten nicht mehr funktioniert –, setzt man auf Zentralisierung. Unter dem Titel "Global English" wurden die einzelnen Ableger in ein großes Modell zusammengefasst. Die Erkennung der zu hörenden regionalen Sprachfärbung soll damit ebenfalls automatisch möglich sein.

... bis zur "Umfärbung" von Spracheingaben

Einen anderen Ansatz erprobte ein polnisch-japanisches Forscherteam 2021. Es versuchte englischsprachige Sprachaufnahmen mit japanischem Akzent mittels Style Transfer "amerikanischer" klingen zu lassen. Style Transfer kennt man vorwiegend aus dem Bereich der Bilder-KIs, die etwa auf Kommando ein Motiv im Stile eines bestimmten Künstlers generieren. Im konkreten Fall arbeitete man mit Sprechproben japanischer und amerikanischer Studenten, die jeweils idente Textstellen vorlesen. Anhand der Wellenform ließ man eine KI ein Sprachmuster der von den Amerikanern eingesprochenen Audiosamples errechnen und anschließend auf die Aufnahmen ihrer japanischen Kollegen übertragen.

Das Ergebnis war durchaus vielversprechend. Die Fehlerquote bei der Umwandlung der mittels Style Transfer bearbeiteten Leseproben lag im Vergleich zu den akzentuierten Sprachsamples um bis zu 40 Prozent niedriger.

Die Sparkasse Nürnberg hat auf die Berichterstattung rund um ihren Telefon-Bot mittlerweile reagiert. In einem Video zeigt man, wie Anna einem "fränggisch Gräschkurs" unterzogen wird. Ob es bei dem Unterhaltungsclip bleibt oder man die digitale Assistentin tatsächlich dialektkompatibler machen möchte, bleibt leider offen. Vorläufig werden die Bankkunden also weiter Hochdeutsch mit ihr reden müssen. (gpi, 1.2.2024)