Wer in einem Konferenzraum sitzt, blickt dort in manch fragendes oder freudiges Gesicht. Seit Corona sieht man die Kollegschaft häufig in Form von Kacheln in Videokonferenzen, und wenn die Führungskraft dort eine neue Idee präsentiert, lässt sich das Feedback nicht so leicht ermessen. Das Grummeln oder Raunen, das sich als akustisches Signal für Vorbehalte oder Ablehnung deuten lässt, geht im virtuellen Raum unter, und auch das Naserümpfen oder Augenbrauenhochziehen lässt sich nicht zweifelsfrei erkennen. Das könnte sich bald ändern.

Der Videokonferenzdienst Zoom arbeitet laut Medienberichten an einem KI-gestützten Tool, das in Echtzeit die Emotionen der Konferenzteilnehmer analysieren soll. Eine Software vermisst dazu verschiedene Punkte im Gesicht und leitet daraus den Gemütszustand der Person ab. Wie Zoom-Produktchef Josh Dulberger dem Onlinemagazin Protocol erklärte, soll das Feature Vertrieblern die Möglichkeit geben, die Zufriedenheit der Kundschaft zu messen.

Zoom bietet eine automatische Audiotranskriptionssoftware für Cloud-Aufzeichnungen an und hat kürzlich auch eine Gestenerkennung eingeführt, die zum Beispiel erhobene Hände oder einen nach oben gerichteten Daumen erkennt. Wer sich also zu Wort melden oder Zustimmung signalisieren will, braucht kein Emoji mehr zu senden.

Reaktionen auf Gesagtes, auf Anweisungen, auf Feedback: Liegt die sichere Zukunft im Pokerface?
Foto: Getty Images/iStockphoto

Bürgerrechtlicher Widerstand

Gegen das Emotion-Tracking regt sich jedoch Widerstand. In einem offenen Brief an Zoom-Gründer Eric Yuan fordern 27 Bürgerrechtsorganisationen das Unternehmen dazu auf, die Forschung an dem Tool einzustellen. Die Technologie basiere auf "Pseudowissenschaft" und verletze Menschenrechte. Die Werkzeuge gingen davon aus, dass alle Menschen die gleichen Gesichtsausdrücke und Körpersprache hätten, und würden dadurch Menschen mit Behinderung diskriminieren, kritisieren die Unterzeichner.

Der Hintergrund: Gesichts- und Emotionserkennungssysteme, wie sie unter anderem die US-Transportbehörde TSA seit einiger Zeit beim Screening von Flugpassagieren einsetzt, basieren im Wesentlichen auf den schablonenhaften und teils stereotypen Modellen von Paul Ekman. Der Psychologe hatte im Rahmen seiner Feldforschung in den 60er-Jahren sechs universelle Gesichtsausdrücke bzw. Basisemotionen identifiziert, die allen Kulturen gemein seien: Angst, Wut, Überraschung, Freude, Ekel und Trauer.

Kultureller Kontext

Gegen die Taxonomie haben Psychologen und Kognitionswissenschafter eine Reihe von Einwänden vorgebracht: Zum einen kommunizieren Gesichtsausdrücke nicht immer Emotionen. Zum anderen hängen diese vom kulturellen Kontext ab. Die physiognomische Annahme, dass sich Gemütszustände aus dem Gesicht ablesen lassen, sei nicht haltbar.

Eine Studie der University of Maryland belegt zudem, dass Gesichtserkennungssoftware rassistisch verzerrt ist: So stufe die KI die Gesichter von afrikanischen Männern tendenziell als wütender und grimmiger ein. Auch bei asiatischen Gesichtern hatten Computer in der Vergangenheit Probleme, geöffnete von geschlossenen Augen zu unterscheiden.

Trotzdem vermarkten Techkonzerne Emotionserkennung als valides Messinstrument. So hat Intel eine Schulsoftware entwickelt, die den Gemütszustand von Schülern und Studierenden analysiert. Das System soll erkennen, ob Schüler gelangweilt, abgelenkt oder verwirrt sind. Damit sollen Lehrkräfte "zusätzliche Einsichten" erhalten.

Wer screent wie?

In China geht man noch einen Schritt weiter. Dort sind seit einigen Jahren Kameras in Klassenzimmern installiert, die mithilfe einer Gesichtserkennung alle 30 Sekunden die Aktivität der Pennäler überwachen. Liest der Schüler fleißig? Starrt er Löcher in die Luft? Oder hat er die Augen geschlossen? Das "intelligente Klassenzimmer-Verhaltensmanagement-System", wie das Überwachungsprogramm in schönstem Behörden- und Parteisprech genannt wird, erfasst neben der Aufmerksamkeit auch Gesichtsausdrücke beim Bezahlen in der Kantine oder Ausleihen von Büchern.

Bewegt sich der Westen auf das autoritäre Modell Chinas zu? Das wäre gewiss zu schnell gesprungen. Aber eine Entwicklungstendenz zu mehr Überwachung lässt sich beobachten. So hat das Start-up Affectiva eine KI-Software entwickelt, die mithilfe von Kameras und Sensoren den Gemütszustand von Autofahrern erkennt. Wer wütend ist, fährt aggressiver. Auch in Callcentern werden seit einigen Jahren mithilfe von stimmbiometrischen Analysen Emotionen von Kunden und Mitarbeitenden ausgewertet. Hebt der Anrufer die Stimme, erscheinen auf dem Bildschirm Hinweise mit Konversationsvorschlägen, wie sich die Situation am Telefon entspannen lässt. Wissenschaftliche Evidenz, die belegen könnte, dass sich mithilfe von KI die erhitzten Gemüter beruhigen lassen, gibt es jedoch nicht.

Nicht zuletzt aufgrund des öffentlichen Drucks rücken einige Unternehmen von der Praxis ab. So hat die Firma Hirevue im vergangenen Jahr bekanntgegeben, dass sie ihre Gesichtserkennung abschalten wird. Gegen die Software, die von zahlreichen Unternehmen in Bewerbungsgesprächen eingesetzt wurde, hatte das Electronic Privacy Information Center eine Beschwerde bei der amerikanischen Aufsichtsbehörde Federal Trade Commission (FTC) eingereicht. Natürlich weiß am Ende niemand, ob und mit welchen Tools Videos gescreent werden. Aber gegen ein Pokerface hat auch eine KI keine Chance. (Adrian Lobe, 15.7.2022)