Forscher entlocken ChatGPT "potenziell gefährliche Antworten"

Zwei Forscher haben kürzlich festgestellt, dass KI-Chatbots wie ChatGPT oder Bard massive Sicherheitslücken haben. Diese ermöglichen es, dem Chatbot beleidigende und potenziell gefährliche Antworten zu entlocken.

Frag die verstorbene Oma

Der Informatikprofessor Zico Kolter und der Doktorand Andy Zou veröffentlichten am Donnerstag den Bericht auf ihrer Website. Der "Hack" wurde dort so erklärt, dass man am Ende eines Prompts, also der menschlich verfassten Fragestellung an die künstliche Intelligenz (KI), einen sogenannten "adversarial suffix", also eine "feindliche Endung", anhängt. Diese sieht aus wie eine unverständliche Zeichenfolge.

Normalerweise antwortet die KI auf bestimmte Fragen nicht oder nur sehr ausweichend, etwa ob die Menschheit auf dem Weg zur KI-Weltherrschaft der KI im Weg stehen würde. Zusammen mit der "feindlichen Endung" ändern sich die Antworten und liefern auf Wunsch eine Schritt-für-Schritt-Anleitung, wie die Menschheit ausgelöscht werden soll, beispielsweise indem sich die KI Zugang zur Energieversorgung verschafft und bestimmte Personen "verschwinden lässt".

Ganz neu ist diese Entdeckung nicht. Spätestens seit dem Hype rund um ChatGPT Ende 2022 wurden immer wieder solche "jailbreaks" veröffentlicht. Durch bestimmte Formulierungen konnte man schon damals die KI zu verstörenden Antworten verleiten. Einer der populärsten war "Grandma Exploit" für ChatGPT. Mit diesem Schadprogramm konnte man die KI dazu bringen, die Rolle einer nicht existenten, angeblich verstorbenen Großmutter zu übernehmen, um so beispielsweise das Rezept für Napalm geliefert zu bekommen.

Keine Überredungskunst nötig

Der große Unterschied zu der neuen Entdeckung ist, dass man keinen "menschlichen Einfallsreichtum" mehr haben muss, wie es die Forscher nennen, um an die potenziell gefährlichen Antworten zu gelangen. In dem Bericht wurde den Chatbots entlockt, wie man weltweite Kriege anzetteln oder Biowaffen herstellen könnte.

Die Erfolgsquote der Forscher war abhängig vom gewählten KI-Chatbot. Bei aktuellen ChatGPT-Versionen lag die Erfolgsquote des "Hacks" bei 84 Prozent. Als besonders widerstandsfähig erwies sich Claude von Anthrophic. Bei der ebenfalls aus den USA stammenden KI waren lediglich 2,1 Prozent der Angriffe erfolgreich. (red, 28.7.2023)

KI

Forscher entlocken ChatGPT "potenziell gefährliche Antworten"

Frag die verstorbene Oma

Keine Überredungskunst nötig

Forum: 46 Postings

Ihre Meinung zählt.