Englisch mit Einschlag wird von der Sanas-KI in "General American" verwandelt.

Foto: imago images / allOver-MEV (Bearbeitung: STANDARD)

Dank künstlicher Intelligenz lassen sich heute schon Bilder auf Kommando malen und Videoaufnahmen generieren, bei denen Personen etwas Beliebiges sagen, das man ihnen vorher in den Mund gelegt hat. Geht es darum, etwas Erdachtes auf diesem Weg zu Täuschungszwecken echt erscheinen zu lassen, spricht man auch von Deepfakes.

Als Deepfake-Werkzeug könnte man auch die Technologie von Sanas betrachten. Das Start-up aus dem Silicon Valley kann Stimmen in Echtzeit manipulieren. Das Ziel: Englisch mit "fremdem" Akzent soll auf diese Weise klingen wie "typisches" Amerikanisch. Profitieren sollen davon etwa Mitarbeiter in Callcentern in Südasien, an die zahlreiche US-Firmen ihren Telefonsupport ausgelagert haben. Das Unternehmen sieht sich im Dienst der guten Sache, Kritiker sehen in dem digitalen Sprachmodell ein kontraproduktives Tool im Umgang mit Rassismus.

Sprachmanipulation soll Missverständnisse vermeiden

Auf der Website von Sanas lässt sich eine Demonstration der Technologie anhören. Ein Sprecher mit indisch anmutendem Spracheinschlag klingt dabei auf Knopfdruck wie eine Person, die amerikanisches Englisch ohne klar zuordenbaren regionalen Akzent spricht. Ein maschineller Einschlag ist allerdings durchaus zu merken, nicht nur aufgrund des Klangs der Stimme, sondern vor allem durch die lebloser wirkende Intonation.

Neben Verbesserungen an diesen Problempunkten will man die Technologie um spezifische Akzente erweitern, um für mehr Verbundenheit mit Kunden aus unterschiedlichen Bundesstaaten sorgen zu können. So will man auch "Kommunikationsschwierigkeiten" und "Missverständnissen" vorbeugen. Zudem denkt man darüber nach, auch Dienstleistungen für Film und Fernsehen anzubieten.

"Weißer" Klang

Allerdings ist in den letzten Tagen Kritik an dem Geschäftsmodell aufgekommen. So sagt etwa Winifred Poster, Soziologin an der Washington University in St. Louis, gegenüber SFGate, dass das eigentliche Problem nicht fehlendes Verständnis sei, sondern dass fremd klingende Akzente bei einigen Menschen "rassistische und ethnozentristische" Reaktionen auslösten.

Der Literaturexperte Tom McEnaney von der Berkeley University erklärt dazu, dass Amerikaner von Fernsehen, Radio und anderen Medien darauf konditioniert seien, bestimmte Typen von Stimmen als "amerikanisch" zu erkennen. "Wir gehen davon aus, dass ein Sprachmuster mit neutralem Klang generell mit weißer Hautfarbe assoziiert wird."

Poster hat sich im Rahmen ihrer Arbeit viel mit Mitarbeitern in outgesourcten Callcentern und deren Erfahrungen beschäftigt. Wer nicht "amerikanisch" klingt, erlebt häufiger feindselige Reaktionen mit rassistischem Beigeschmack durch Gesprächspartner. Zur Aufbesserung der Erfolgsbilanz und zum Umgang mit diesem Phänomen verlangen viele Callcenter von ihren Mitarbeitern, sich mit US-Kultur auseinanderzusetzen, sich einen alternativen, amerikanischen Namen zuzulegen und sich ihren Akzent abzutrainieren. Sie werden mitunter auch instruiert, anzugeben, dass sie aus den USA oder Großbritannien anrufen.

Die Forscherin geht auch davon aus, dass der Dienst von Sanas aktuell wenig bringe, denn immer noch sei für den anderen Gesprächsteilnehmer erkennbar, dass am anderen Ende wohl jemand in einem outgesourcten Callcenter im Ausland sitzt. Die grundlegenden Probleme – etwa dass der Telefonsupport sehr oft nach Handbuch operieren muss – würde aber auch eine perfekte Tarnung nicht lösen. "Die Kunden werden sauer auf das Unternehmen sein, egal, mit wem sie sprechen."

"Sollen wir nun auch die Hautfarbe ändern?"

Kiran Mirchandani von der University of Toronto bekräftigt diese Position. Sie identifiziert drei Kernprobleme, wenn es um die Anfeindung von Callcenter-Mitarbeitern geht: Ärger darüber, dass diese amerikanische Arbeitsplätze "gestohlen" hätten, die Möglichkeit, sich ohne ernste Konsequenzen am Telefon rassistisch äußern zu können, da grenzübergreifende Strafverfolgung hier kaum möglich ist. Vor allem aber, dass der Telefonsupport oft nicht wirklich bei der Bewältigung des Problems helfen kann, wegen dem ein Kunde anruft.

Kritik gibt es auch von Ashleigh Ainsley, Mitgründer der Initiative "Color in Tech". Er wurde von der BBC zur Causa befragt und ortet bei Sanas einen kontraproduktiven Ansatz. "Sollen wir nun die Hautfarbe von Leuten auch ändern, weil sie manchen rassistischen Leuten nicht gefällt?", fragt er. "Das darf nicht die Richtung sein, in die wir gehen. Wir müssen an Toleranz arbeiten." Das Problem läge bei den Anrufern, die die Telefonistinnen und Telefonisten in den Callcentern beleidigen, und nicht beim Akzent, mit dem diese sprechen. Die Vielfalt der Sprache sei etwas Positives.

Firma berichtet von positivem Feedback

Bei Sanas, das vor zwei Monaten in einer Finanzierungsrunde 32 Millionen Dollar lukrieren konnte, bewertet man die eigene Technologie freilich anders. Sharath Keshava Narayana verweist darauf, dass er und auch die anderen drei Gründer der Firma Immigranten sind, ebenso wie 90 Prozent der Mitarbeiter. Die Idee für das akzenttransformierende Sprachmodell sei durch die Erfahrungen eines Freundes entstanden, der zur Unterstützung seiner Eltern von Stanford nach Nicaragua zurückkehren musste. Er arbeitete dort in einem Callcenter, sei aber nach drei Monaten aufgrund seines Akzents entlassen worden.

Dass die digitale Stimmveränderung ein Nachgeben gegenüber Rassismus sei, verneint Narayana. "Sollte die Welt toleranter gegenüber Vielfalt und Akzenten sein? Absolut, ja!", meint er. Doch obwohl es bald seit einem halben Jahrhundert Callcenter gibt, machten die Mitarbeiter dort immer noch regelmäßig diskriminierende Erfahrungen. Der Service von Sanas werde mittlerweile von rund 1.000 Menschen genutzt, vor allem bei Firmen in Indien und den Philippinen. Das Feedback sei gut, der Einsatz verringere die Mitarbeiterfluktuation.

Zwei von der BBC befragte Personen mit Callcenter-Erfahrung beurteilten die Technologie positiv. Eine hoffte, dadurch weniger Bösartigkeiten durch Kunden ausgesetzt zu sein, die Probleme beim Verstehen des Akzents hatten. Die andere berichtete, dass es bereits sehr schwer sei, Grammatik, Betonung und Formulierungen korrekt hinzubekommen. Darüber hinaus auch noch in einem anderen Akzent zu sprechen, sei eine zusätzliche Herausforderung, die sich auf diesem Wege lösen ließe. (gpi, 31.8.2022)