Juristische Konzepte und Texte sind für Laien oft nur schwer zu verstehen. Kein Wunder, hat sich doch auch in diesem Bereich eine Fachsprache entwickelt, deren Verständnis und Interpretation entsprechende Ausbildung verlangt.

Was für Menschen ein mehrjähriges Studium bedeutet, sollte ein KI-Sprachmodell doch viel schneller bewerkstelligen können, sollte man meinen. Doch so einfach ist das eben nicht, zumal Sprachmodelle nicht über echtes Verständnis von Ideen verfügen, sondern – vereinfacht dargestellt – auf Basis großer Datenmengen die Erkennung und Reproduktion von Mustern betreiben.

Um herauszufinden, wie gut das im Bereich des Rechtswesens klappt, haben Neel Guha und andere Forscher der Stanford University gemeinsam mit Anwälten den Test LegalBench entwickelt. Dieser beinhaltet 162 Aufgaben aus der juristischen Praxis, die sechs unterschiedliche juristische Skills fordern. Zu diesen gehören etwa die Analyse von Gerichtsunterlagen wie auch die Erkennung verschiedener Arten von Rechtssprache, fasst es "New Scientist" zusammen.

KI schlecht bei Detailfragen

Die in konstanter Weiterentwicklung befindliche Benchmark soll ein realistischeres Ergebnis erbringen, als die KIs einfach die US-Rechtsanwaltsprüfung, das Bar Exam, absolvieren zu lassen. In selbigem konnte ChatGPT-4, das aktuelle Sprachmodell von OpenAI, bereits mehr Punkte erzielen als durchschnittliche menschliche Teilnehmer.

Auch beim LegalBench konnte GPT-4, gefolgt von seinem Vorgänger GPT-3.5, am besten abschneiden. In den einzelnen Kategorien erreichten sie Wertungen im Bereich von 70 und 80 bei maximal 100 möglichen Punkten.

Ein Roboteranwalt in einem Gerichtssaal, generiert mit Midjourney.
Bis KIs reif für den Gerichtssaal sind, wird es noch eine Weile dauern. Dieses Symbolbild wurde mit Midjourney generiert.
DER STANDARD/Pichler/Midjourney

Lediglich 59 Punkte gab es für GPT-4 allerdings, wenn es darum ging, spezifische Details verschiedener rechtlicher Vorgaben zu erörtern. Andere Modelle, darunter GPT-3.5 oder Metas Llama oder Claue von Anthropic, schnitten noch einmal deutlich schlechter ab.

Zum Vergleich: Die Annahme der Forscher ist, dass menschliche Juristen bei diesem Test ein nahezu perfektes Ergebnis erreichen können sollten. Die Überprüfung dieser These ist allerdings noch ausständig.

Anwälte und Start-ups experimentieren bereits

Klar ist damit aber auch, dass man lieber noch damit warten sollte, den eigenen Anwalt zugunsten einer KI zu kündigen. Reif fürs Gericht sind GPT-4 und Konsorten wohl noch länger nicht. Wie ein unvorsichtiger Einsatz ausgeht, zeigt die im Juni von einem Gericht ausgesprochene Strafe von 5.000 Dollar für zwei Anwälte, die von ChatGPT generierte Rechercheunterlagen für eine Verhandlung eingereicht hatten.

Experimentiert wird mit der KI in dem Bereich aber schon. Die britische Kanzlei Allen & Overy testet GPT-4 als Recherche-Hilfsmittel und für den Schriftverkehr per E-Mail. Das Start-up Do Not Pay wollte außerdem seinen eigenen Chatbot als Beratung für einen Klienten bei der Verhandlung um eine Strafe wegen Zuschnellfahrens nutzen. Dieser hätte die Aussagen von Richter und Staatsanwalt auswerten und ihm über drahtlose Hörer mitteilen sollen, wann er was sagen solle.

Nach der Ankündigung im Jänner sah man schließlich doch von dem Testlauf ab. Firmenchef und Gründer Joshua Browder berichtet, dass ihm die Anwaltskammer mit rechtlichen Konsequenzen gedroht habe, die in eine Gefängnisstrafe von bis zu sechs Monaten münden könnten. (gpi, 8.9.2023)