Was man mit GPT 3.5 begonnen hat, will das Unternehmen OpenAI nun zum nächsten Meilenstein führen. Wie schon von Microsoft, einem der größten Stakeholder der Firma, angekündigt, hat man nun die nächste Version in Form von GPT 4.0 veröffentlicht. Sie soll in mehr Aufgaben mit Menschen vergleichbare Leistung erbringen können, mehr Kreativität zeigen und kann nun auch mit Bildern gefüttert werden.

Als Beispiel für die Verbesserung nennt OpenAI die US-Anwaltsprüfung, das Bar Exam. GPT 3.5 lieferte bei einer Simulation desselben eine Performance in den untersten zehn Prozent des Teilnehmerfeldes. Version 4 hingegen schließt es in den oberen zehn Prozent ab, erklärt man in einem Blogeintrag zum Release.

GPT 3.5 war ein "Testlauf"

Vor zwei Jahren habe man die Technik hinter dem eigenen Deep-Learning-Verfahren – also der Auswertung von riesigen Datenmengen zum Zwecke der Verbesserung der KI – komplett umgebaut und verfügt seitdem auch über einen eigenen, auf diesen Zweck zugeschnittenen Supercomputer, den man gemeinsam mit Microsofts Cloud-Abteilung Azure gebaut hat. Vor einem Jahr schließlich schickte man GPT 3.5 durch den neuen Lernparcours und veröffentlichte es dann als "Testlauf", unter anderem auch in der auf Konversationen spezialisierten Fassung ChatGPT.

Beim Training entdeckte man auch eine Reihe von Bugs und Problemen, die man ausmerzte. Das trug dazu bei, dass man GPT 4 wesentlich schneller "anlernen" konnte. Im letzten halben Jahr hat man die neue Ausgabe "iterativ angepasst" und konnte die Performance des verbesserten Modells auch im Vorfeld akkurat voraussagen. Neben seiner verbesserten Leistungsfähigkeit soll es auch "stabiler" sein. Gemeint ist damit, dass es sich präziser einstellen lässt und Grenzen, die festlegen, was es machen darf und was verweigert wird, konsequenter einhält.

Text-Inputs von bis zu 25.000 Zeichen möglich

Hinzu kommt außerdem eine neue Fähigkeit, nämlich die Interpretation von Bildern. Weiters wird man den Code von OpenAI Evals zur automatisierten Performance-Einschätzung offenlegen und erhofft sich dadurch mehr Feedback, wenn Probleme auftreten.

Wer mit dem neuen KI-Modell chattet, dem werden die Unterschiede erst einmal kaum auffallen, betonen die Entwickler. Zeigen soll er sich in kreativeren Formulierungen, aber insbesondere bei längeren und komplexeren Eingaben. Dafür lässt sich GPT 4 mit Textinput von bis zu 25.000 Zeichen füttern. Zum Austesten der erweiterten Fertigkeiten fütterte man das System mit einem Steuergesetz und stellte dazu eine Frage zum Thema Einkommenssteuerentlastung, die korrekt und inklusive Herleitung beantwortet wurde.

Durch die Bank besser bei Tests

Getestet wurde das System auch noch an einer Reihe anderer, für Menschen vorgesehenen Prüfungen, die häufig im wissenschaftlichen Kontext stehen. Dazu zählen Anfragen zur Sprachkompetenz, Weltgeschichte, Wirtschaft oder auch zu verschiedenen Naturwissenschaften. In den meisten davon schnitt GPT 4 besser – oft mit großem Unterschied – ab als sein Vorgänger. OpenAI betont, dass man die künstliche Intelligenz nicht spezifisch für diese Tests trainiert habe und nur ein kleiner Teil der Aufgabenstellungen in den Lerndaten vorkomme. Auch in üblichen Benchmarks für KI-Modelle erhöht die neue Version den Score deutlich.

Die Kapazitäten bei der Interpretation von Bildern sollen mit jenen beim Umgang mit Text vergleichbar sein. In einem Beispiel etwa wurde das System mit mehreren Fotos eines Gadgets gefüttert und gefragt, was daran lustig sei. GPT 4 identifizierte korrekt ein als VGA-Bildschirmadapter "getarntes" iPhone-Ladekabel mit Lightning-Anschluss und merkte die absurde Wirkung an, die dabei entsteht, wenn man ein modernes Smartphone scheinbar mit einem veralteten und inkompatiblem Stecker anhängt.

Es ist aber ebenso in der Lage, statistische Diagramme zu erfassen, Testaufgaben mit grafischer Aufgabenstellung zu beantworten oder Code auf Basis einer Skizze zu erzeugen.

"Halluzinationen" weiter möglich

Man warnt aber auch vor weiterhin bestehenden Limitationen. Wenngleich die KI nun deutlich wahrheitstreuer agieren soll, ist sie immer noch nicht "komplett zuverlässig". Es kann also immer noch vorkommen, dass sie Falschinformationen ausspuckt und als Fakt deklariert oder auch Fehler beim Ziehen logischer Schlüsse begeht.

Ein Paper zur Weiterentwicklung und den neuen Fähigkeiten hat OpenAI in Form eines Technical Reports (PDF) verfasst. Dieses kann von Interessierten direkt auf der Website des Unternehmens abgerufen werden.

GPT 4 ist auch bereits im Einsatz. Wer über einen bezahlten ChatGPT Plus-Account verfügt, kann das neue Modell bereits austesten. Ebenso hat Microsoft es auch schon in eigener Anpassung für den Bing-Chatbot integriert. Die Bilderauswertung ist allerdings noch nicht öffentlich zugänglich. Aktuell wird diese Funktion noch von OpenAI mit einem ausgewählten Partner getestet. (gpi, 15.3.23)