Wie die Kommunikation mit Alexa und Siri abläuft

Alexa, Siri & Co sorgen meist für gemischte Gefühle. Die Sprachassistenten erleichtern den Alltag, schüren jedoch auch Ängste vor Lauschangriffen und Datenmissbrauch.

Digitale Butler, die auf Zuruf alltägliche Verrichtungen übernehmen – so lautet eine Idealvorstellung von Sprachassistenten. Sie dimmen das Licht, erledigen Einkäufe oder legen Musik auf. Solche Voice-Response-Systeme wie Amazons Alexa oder der Google Assistant ersetzen das klassische Nutzerinterface wie auf dem Display durch Sprachsteuerung.

Theoretisch möglich ist aber auch der Einsatz außerhalb der eigenen vier Wände: So wird darüber nachgedacht, Rezeptionsaufgaben im Hotel an solche Programme zu delegieren oder Werkmaschinen damit zu steuern. Jedoch ist die Art und Weise, wie Menschen mit solchen Technologien interagieren, bislang kaum erforscht.

Eine Studie der Fachhochschule Kufstein hat sich deshalb der sprachlichen Kommunikation von Menschen und Maschinen gewidmet: "Wir wollten untersuchen, wie die Nutzung von Sprachassistenten strukturiert ist", erklärt Studienleiter Michael Kohlegger.

Offene Fragen

Beim Start der Untersuchung 2018 waren Sprachassistenten zwar schon eine sehr gefragte und von den Herstellern emsig vermarktete Technologie, wissenschaftliche Erkenntnisse über ihre Nutzung lagen damals aber noch nicht vor: "Was es zu dem Zeitpunkt noch nicht gab, waren Untersuchungen zur Benutzbarkeit dieser Tools und zur Nutzererfahrung mit solchen Werkzeugen", sagt Kohlegger.

Deshalb haben die Tiroler Forscherinnen und Forscher das Verhalten von mehr als 800 unerfahrenen wie geübten Usern derartiger Systeme mithilfe von Befragungen und experimentellen Versuchen unter die Lupe genommen.

Grenzen der Interaktionsfähigkeit

Laut Kohlegger wurde in der Untersuchung sichtbar, dass diese Systeme durchaus ambivalent genutzt werden. Als nützlich erweisen sie sich vor allem für Benutzergruppen, für die der Umgang mit Smartphones, Tablets oder Computern immer noch eine technische Hürde darstellt – ältere Menschen etwa.

"Aber die Interaktionsfähigkeit ist natürlich auch limitiert", sagt Kohlegger. So könne man etwa keine Dropdown-Felder anbieten, in denen große Listen zur Auswahl stehen, aus denen User etwas heraussuchen können. Zudem misstrauen viele Nutzer den Geräten immer noch zu sehr, um ganz unbefangen mit ihnen zu sprechen.

Training mit Daten

"Es gibt viele User, die Angst haben, dass jemand zuhören könnte, weil nie klar ist, wo die Daten, die diese Schnittstelle entgegennimmt, schlussendlich gespeichert werden", sagt Kohlegger. Ein mulmiges Gefühl erzeugen auch die Fragen, wer Zugriff zu diesen Daten hat und was damit passiert. In den meisten Fällen werden diese Daten für das Training der Schnittstelle und für die Weiterentwicklung solch intelligenter Modelle verwendet.

Das schränke eine positive Nutzungserfahrung ein, da für viele Nutzer im Hintergrund das unwohle Gefühl bleibe, dass mit den preisgegebenen Daten noch mehr verbunden werde. Kohlegger und sein Team interessiert vor allem, wie die Sprachassistenten agieren, wenn ihnen die User komplexere Aufgaben geben. Dem System eine einfache Frage wie zum Beispiel "Wie hoch ist der höchste Berg der Welt?" zu stellen und eine korrekte Antwort zu erhalten, funktioniert schon recht gut.

Lange Gespräche können frustrierend enden

"Bei den Nutzerinterfaces, die uns interessieren, geht es dann schon um Interaktionen, die über mehrere Stufen gehen und damit viel komplexere Interaktionsmuster bieten", sagt der Studienleiter. Er sieht die Gefahr, dass sich die Nutzerinnen und Nutzer im Interaktionsmuster verlieren.

Wenn der Sprachassistent, der sich hauptsächlich an im System hinterlegten Signalwörtern orientiert, etwas nicht versteht, muss man mangels anderer Handlungsoptionen von vorn beginnen, was schnell zur Frustration führt. Je kürzer die Interaktionsketten, desto besser funktioniere das Ganze, so Kohlegger: "Das Potenzial des Scheiterns kumuliert, je länger ich mit Sprachassistenten interagiere."

Wie viel Interaktion ist zumutbar?

Am Display helfen wiederum häufig visuelle Elemente, um einen Prozess erfolgreich abzuschließen. Kohlegger hofft, dass diese Ergebnisse vor allem den Entwicklern von Sprachassistenten nützen.

In der Anbahnung solcher Projekte könne es hilfreich sein, die Implikationen der vorliegenden Arbeit zu betrachten, meint Kohlegger. Das sei zentral, "um eine tragfähige Aussage darüber zu bekommen: Was kann ich mit dem Sprachassistenten technisch umsetzen und umgekehrt: Wo steigt der User aus, wo bleibt er drin?" Letztlich gehe es auch um die Frage, welches Maß an Interaktion für Benutzer noch zumutbar ist. Denn wer möchte schon eine Nervensäge als Butler haben? (Johannes Lau, 8.1.2022)

Elektronische Helfer