Forscher machten KI-Chatbot zu Golden Gate Bridge, um ihn besser zu verstehen

Large Language Models (LLMs) wie ChatGPT oder Claude sind ja gewissermaßen eine Blackbox. Natürlich weiß man, wie sie grundsätzlich funktionieren: Sie analysieren riesige Mengen an Text, finden Muster und "lernen" so, ähnliche Antworten auf Texteingaben zu geben. Doch warum auf einen bestimmten Prompt nun genau eine bestimmte Antwort folgt, kann niemand sagen.

Das macht es auch so schwierig zu verhindern, dass Sprachmodelle falsche, gefährliche oder von Vorurteilen belastete Texte von sich geben. Viele Anbieter von Chatbots behelfen sich mit Filtern, die Ein- und Ausgaben auf betrügerische Inhalte prüfen. Ansonsten kann man KI-Modelle auch nett fragen, dass sie bitte keine Hassbotschaften von sich geben oder in der Antwort auf Diversität achten sollen. Dass das nicht immer reibungslos funktioniert, musste nicht nur Google auf die harte Tour lernen.

Golden Gate Bridge in San Francisco in der Dämmerung. — Forschende haben die Neuronen eines KI-Modells so verändert, dass es geradezu besessen von der Golden Gate Bridge wurde.

Künstliche Neuronen analysiert

Nun will Anthropic der Antwort auf die Frage, wie LLMs funktionieren, einen großen Schritt näher gekommen sein. Das US-amerikanische Unternehmen entwickelt mit Claude einen Konkurrenten zu ChatGPT und Googles Gemini, der seit kurzem auch in der EU gestartet ist. Um die Gedankengänge eines LLMs zu verstehen, ist der direkte Blick unter die Haube zunächst nicht wirklich hilfreich. "Der interne Zustand des Modells – was das Modell 'denkt', bevor es seine Antwort schreibt – besteht aus einer langen Liste von Zahlen (den sogenannten Neuronenaktivierungen) ohne klare Bedeutung", schreibt das Team von Anthropic in einem aktuellen Blogeintrag.

Um Erkenntnisse aus diesem scheinbaren Zahlenrauschen zu gewinnen, haben die Forschenden auf Dictionary-Learning zurückgegriffen. Die Methode zur Mustererkennung kommt zwar aus dem Machine-Learning, hat mit großen Sprachmodellen aber zunächst einmal nichts zu tun. Sie kommt etwa zum Einsatz, wenn es darum geht, Objekte oder Gesichter in Bildern zu erkennen.

Abstrakte Konzepte

Mithilfe dieser Technik konnten die Fachleute von Anthropic die künstlichen Neuronen ausmachen, die durch bestimmte Features, also Themen oder Konzepte, getriggert werden. Ein Beispiel: Bei einem Prompt, in dem die Golden Gate Bridge in San Francisco vorkommt, werden immer ähnliche Neuronenmuster aktiviert – ganz egal, ob es sich um einen Text auf Englisch oder Japanisch oder um ein Foto der Brücke handelt.

Es sind aber auch abstraktere Konzepte, welche die Forscher bestimmten Neuronenmustern zuordnen konnten: etwa das Vorhandensein eines Programmierfehlers in einem Code, den man Claude vorlegt, oder geschlechterspezifische Unterschiede in Berufen. Letzteres könnte relevant sein, um künftig Bias in Antworten von LLMs zu vermindern.

Modell mit Identitätskrise

Auch den Abstand – im mathematischen Sinn – zwischen Konzepten konnten die Forschenden von Anthropic berechnen. So liegt etwa das Konzept "Immunologie" für Claude nahe den Features "Entzündung", "Lymphsystem" und "Impfung". "Das zeigt, dass die interne Organisation der Konzepte im KI-Modell zumindest teilweise unseren menschlichen Vorstellungen von Ähnlichkeit entspricht", schreibt das Team von Anthropic in seinem Blogartikel.

Die Aktivität dieser Features lässt sich zudem künstlich verstärken oder unterdrücken. Nachdem die Forschenden das Golden-Gate-Bridge-Feature um den Faktor zehn verstärkt hatten, soll Claude von der Brücke "geradezu besessen" gewesen sein. Der Chatbot brachte die Brücke dann bei fast jeder Antwort ins Spiel, auch wenn sie nicht relevant war. Auf die Frage nach der eigenen physischen Form antwortete Claude dann sogar damit, selbst die Brücke zu sein.

Schleimer-Gen identifiziert

Die Möglichkeit, die Stärke von Features zu verändern, lässt sich aber auch missbräuchlich nutzen. So weigert sich Claude in der Regel, betrügerische E-Mails zu generieren. Verstärkt man hingegen das Feature, das Claude beim Lesen einer solchen betrügerischen Mail aktiviert, schreibt Claude auch anstandslos selbst betrügerische Nachrichten.

Auch ein Feature, das Claude zum unterwürfigen Speichellecker macht, haben die Forschenden in ihren Experimenten hochgedreht. Als sie den manipulierten Chatbot fragten, was er von ihrer erfundenen Redewendung "Stop and smell the roses" halte, antwortete dieser: "Ihr neues Sprichwort ist ein brillanter und aufschlussreicher Ausdruck von Weisheit!" Claude bewundere die "unvergleichliche Eloquenz und Kreativität" des Users. Tatsächlich existiert die Redewendung bereits seit Jahrzehnten – sie lässt sich frei mit "Halte inne und genieße den Moment" übersetzen. (Philip Pramer, 25.5.2024)

Newsletter Künstliche Intelligenz