Symbolbild zeigt Roboter in Fabrikshalle
Multimodale KI-Modelle sind auf dem Vormarsch: Bei der Kombination mit Robotern ist aber noch Vorsicht geboten, betonen Wissenschafter der Universität von Maryland.
Midjourney

Könnte man Robotern bedenkenlos jede Aufgabe anvertrauen? Diese Frage mag auf den ersten Blick absurd erscheinen. Tatsächlich steckt eine Problematik dahinter, mit der man sich mittel- bis langfristig auseinandersetzen muss: Kommerzielle und Open-Source-KI-Modelle, die in der Lage sind, visuelle, akustische und sprachliche Daten zu verarbeiten, sind auf dem Vormarsch. Daher ist es nicht abwegig, dass in der nahen Zukunft vermehrt Anstrengungen unternommen werden, um Modelle zur Sprach- und Bilderkennung in solche mechanischen Systeme einzubinden. Wissenschafter der Universität von Maryland haben nun einen genaueren Blick auf diese Kombination geworfen.

Das Ergebnis ist ernüchternd: Auch wenn die Entwicklung in diesem Bereich revolutionäre Möglichkeiten in Aussicht stellt, sollten die Gefahren gerade zu Beginn keinesfalls unterschätzt werden. Die Untersuchung durch ein Team von neun Forschern hat deutliche Schwachstellen in den aktuellen, auf großen Sprachmodellen basierenden Frameworks für Robotik aufgedeckt, wie "The Register" berichtet. Durch die Analyse von Frameworks wie KnowNo, VIMA und Instruct2Act stellte das Team fest, dass diese Systeme durch einfache Umformulierungen von Befehlen oder Veränderungen in der visuellen Eingabe leicht in die Irre geführt werden können.

Leicht manipulierbar

Die Forscher haben sich mit verschiedenen Typen von Cyberangriffen befasst, die sie in simulierten Szenarien getestet haben. Diese umfassten Angriffe, die auf Befehlseingaben, die Wahrnehmung der Maschinen oder eine Kombination aus beidem abzielen – und auch außerhalb des Labors in realen Situationen auftreten können. Ein konkretes Beispiel für einen Angriff basierend auf Befehlseingaben war die Umformulierung eines Befehls an einen sprachgesteuerten Roboterarm. Das kann dazu führen, dass der Arm ein falsches Objekt aufgreift und es an einem ungewollten Ort ablegt. Die Studie zeigt, dass eine scheinbar geringfügige Änderung im Befehl den Roboterarm in seiner Testumgebung, dem VIMA-Bench-Simulator, bereits verwirren und zu Fehlern führen kann.

Bei Angriffen, die auf die sensorische Wahrnehmung abzielen, werden Bilder verändert, beispielsweise durch Hinzufügen von visuellem Rauschen oder durch Veränderung der Bildausrichtung, um die Bildverarbeitungsfähigkeiten der Maschine zu stören. Die Untersuchung ergab zudem, dass diese Angriffsmethoden sehr effektiv sind und zu einer deutlichen Leistungsminderung der Systeme führen. Die Daten der Forscher zeigen, dass die Leistung bei Befehlsangriffen um durchschnittlich 21,2 Prozent und bei Angriffen auf die Wahrnehmung sogar um 30,2 Prozent nachließ.

Vorsicht geboten

Basierend auf ihren Forschungserkenntnissen haben die Wissenschafter einige Empfehlungen ausgesprochen. Sie betonen zunächst die Notwendigkeit zusätzlicher Benchmarks, um die Effektivität der in Robotern eingesetzten Sprachverarbeitungsmodelle zu überprüfen. Weiterhin heben sie hervor, dass Roboter in Situationen, in denen sie unsicher sind, aktiv Menschen um Unterstützung bitten sollten. Des Weiteren unterstreichen sie die Wichtigkeit, dass Systeme, die auf großen Sprachmodellen basieren, transparent und nachvollziehbar gestaltet sein sollten, anstatt Nutzer mit einer weiteren Blackbox zu konfrontieren.

An die Entwickler von Robotern wird appelliert, Mechanismen zur Erkennung von Sicherheitsbedrohungen zu implementieren und entsprechende Warnsysteme zu etablieren. Nicht zuletzt fordern die Wissenschafter, dass alle möglichen Eingabeformen – sei es Bild, Text oder Ton – bei der Durchführung von Tests und der Entwicklung von Sicherheitskonzepten berücksichtigt werden müssen. (red, 28.2.2024)