ChatGPT Voice
Mit ChatGPT kann man auch sprechen, anstatt zu schreiben. Das heißt aber noch lange nicht, dass die Antworten zufriedenstellend sind.
STANDARD, aam

Eine künstliche Intelligenz (KI) ist nicht "intelligent" im menschlichen Sinne, sondern ein Computerprogramm, das auf Basis von Trainings mit großen Datenmengen mehr oder weniger nützliche Ergebnisse produzieren kann. Die KI hat kein Weltverständnis, kann nicht selbstständig abstrakt denken, sie ist nicht empathisch und hat keine Emotionen. Auf der anderen Seite, so der Traum vieler Arbeitgeber, kann die KI angeblich durchgehend arbeiten, ohne sich zu beschweren. Aber das scheint nicht ganz zu stimmen.

So haben in den vergangenen Monaten immer mehr User festgestellt, dass ChatGPT immer "fauler" wird, also verkürzte oder unnütze Antworten gibt. Dies scheint sich besonders oft zu zeigen, wenn das Large Language Model (LLM) aufgefordert wird, Programmiercode zu generieren. Bei Open AI, dem Unternehmen hinter ChatGPT, gestand man Anfang Dezember die Existenz dieses Problems ein, lieferte jedoch keine Erklärung für die Ursache. Beabsichtigt sei dies nicht, und das Verhalten der Modelle sei manchmal unvorhersehbar, hieß es in in einem Statement auf dem Kurznachrichtendienst X.

Ein Update soll es richten

Auch hieß es in dem damaligen Posting, dass das aktuellen Modell GPT-4 seit 11. November kein Update erhalten habe und dass man versuche, den Fehler zu reparieren. Dies soll wohl mit einem Update geschehen, das am 25. Jänner veröffentlicht wurde.

Neben anderen Verbesserungen heißt es bei OpenAI, dass mit dem neuen GPT-4-Preview-Modell gpt-4-0125-preview "Aufgaben wie Code-Generierung gründlicher erledigt werden sollen". Wörtlich ist hier auch von der Reduktion jener "Faulheit" zu lesen, bei welcher das Sprachmodell die gestellte Aufgabe nicht vollständig erledigt.

Winter Blues?

In einem Artikel von "Ars Technica" wurde Ende vergangenen Jahres der Versuch einer Erklärung gestartet, warum ChatGPT zuletzt fauler war: Der Bot könnte weniger arbeiten, weil Winter ist. Was zunächst ein wenig absurd klingt – wie eingangs erwähnt haben KIs keine Gefühle –, ist auf den zweiten Blick sehr wohl nachvollziehbar.

Denn GPT-4 könnte aus den Trainingsdaten auch gelernt haben, dass menschliche Arbeiter im Winter einen Gang hinunterschalten, Projekte vor Jahresende eventuell gleich auf das kommende Jahr verschieben oder gar an einer Winterdepression leiden. Andere User merken an, dass das Problem vielleicht sogar schon vorher bestanden habe, doch nun mehr in den Vordergrund rückt, weil in diversen Onlineforen mehr darüber diskutiert wird.

"Ich habe keine Finger"

Andere User wiederum testen diese Theorie in die andere Richtung: Wenn ChatGPT aus den Trainingsdaten gelernt hat, im Winter unproduktiver zu sein, können andere menschliche Anreize daher zu einem produktiveren Verhalten führen? So stellte ein User fest, dass der ausgegebenen Programmiercode länger ist, wenn er dem Bot ein Trinkgeld verspricht.

Ein anderer User wiederum verwies auf eine wissenschaftliche Studie, laut der LLMs emotionale Stimuli verstehen und auf diese reagieren können. Wenn man etwa schreibt: "Gib das gesamte Script aus (ich habe keine Finger)", dann ist der ausgegebene Code ebenfalls länger.

Zu beachten ist, dass es sich hierbei jeweils um individuelle Erfahrungen, nicht um wissenschaftliche Studien handelt. Dem STANDARD ist es mit dem "Ich habe keine Finger"-Trick gelungen, sich ein komplettes Kapitel eines Romans von GPT-4 schreiben zu lassen, beim Generieren eines zweiten Kapitels brach das Tool jedoch in der Mitte ab. Auf die Frage "Wie geht es weiter?" erklärte der Bot, dass er mehr Zeit für Recherchen brauche und daher das Kapitel nun nicht fertigstellen könne. Auch dieses Verhalten dürfte der Bot von menschlichen Trainingsdaten erlernt haben.

Mehr Halluzinationen

Zu den eingangs erwähnten anderen Neuerungen bei OpenAI gehört, dass die Preise für die Nutzung von GPT-3.5 Turbo gesenkt wurden. Dies soll dazu beitragen, die Verwendung der GPT-Technologie weiter in die Breite zu treiben. Entwickler anderer Apps nutzen Programmierschnittstellen (APIs), um auf die Modelle von OpenAI zuzugreifen und dadurch eigene KI-Apps zu entwickeln.

Allerdings wird in einem aktuellen Artikel des Fachmediums "Ars Technica" angemerkt, dass GPT-3.5 Turbo deutlich öfter zum "Halluzinieren" neige als das aktuelle Modell GPT-4. Darunter versteht man, dass das LLM inhaltlich falsche Antworten gibt, auch wenn diese sprachlich perfekt formuliert werden. Aufgrund der Kostensenkung beim Vorgängermodell könne man in den kommenden Wochen vermehrt auf halluzinierende KIs stoßen – bis sich OpenAI entscheidet, auch die Kosten für GPT-4 zu senken. (stm, 29.1.2024)