Eine neue Studie des Stanford RegLab zeigt: Selbst hochspezialisierte, juristische Modelle halluzinieren bei einer von sechs Abfragen. [...]
Werkzeuge der künstlichen Intelligenz (KI) verändern die Rechtspraxis rapide. Fast drei Viertel der Anwälte planen, generative KI für ihre Arbeit zu nutzen. Die Use Cases reichen von der Durchsicht von Rechtsfällen über die Ausarbeitung von Verträgen und die Überprüfung von Dokumenten bis hin zum Verfassen juristischer Texte. Aber sind diese Werkzeuge zuverlässig genug für den Einsatz in der Praxis? Die Forscher Varun Magesh, Faiz Surani, Matthew Dahl, Mirac Suzgun, Christopher D. Manning und Daniel E. Ho haben sich in einer Studie genau dieser Frage gewidmet.
Große Sprachmodelle neigen nachweislich dazu, zu „halluzinieren“, also falsche Informationen zu erfinden. So wurde ein New Yorker Anwalt mit bestraft, weil er in einem Schriftsatz von ChatGPT erfundene Fälle verwendet hatte. In früheren Studien über Chatbots ergab, dass diese bei juristischen Anfragen in 58 bis 82 Prozent der Fälle halluzinierten, was die Risiken der Nutzung von KI in die juristische Praxis verdeutlicht.
Um dieses Problem zu lösen und Halluzinationen zumindest zu reduzieren, setzen immer mehr Anbieter auf die Retrieval-Augmented Generation (RAG)-Technologie. So haben juristische Recherchedienste RAG-basierte Produkte auf den Markt gebracht, von denen sie behaupten, dass sie Halluzinationen „vermeiden“ und „halluzinationsfreie“ juristische Zitate garantieren. „Die Anbieter haben jedoch keine stichhaltigen Beweise für solche Behauptungen vorgelegt oder sogar den Begriff „‚Halluzination‘ genau definiert, so dass es schwierig ist, ihre Zuverlässigkeit in der Praxis zu beurteilen“, so die Autoren der Studie.
Die Forscher haben zwei Produkte auf den Prüfstand gestellt. Wichtigstes Ergebnis: Die spezialisierten Tools können im Vergleich zu allgemeinen KI-Modellen wie GPT-4 tatsächlich Fehler reduzieren. „Das ist eine erhebliche Verbesserung, und wir haben Fälle dokumentiert, in denen diese Tools falsche Voraussetzungen erkennen können. Aber selbst diese maßgeschneiderten juristischen KI-Tools weisen immer noch eine alarmierende Anzahl von Halluzinationen auf: Sie lieferten in mehr als 17 Prozent der Fälle falsche Informationen.“
Laut Forschern halluzinieren diese Systeme auf zwei Arten. Erstens kann eine Antwort eines KI-Tools einfach nur falsch sein – sie beschreibt das Gesetz falsch oder enthält einen sachlichen Fehler. Zweitens kann eine Antwort falsch begründet sein – das KI-Tool beschreibt das Recht zwar korrekt, zitiert aber eine Quelle, die seine Behauptungen nicht stützt. „In Anbetracht der entscheidenden Bedeutung maßgeblicher Quellen für den juristischen Alltag und das Verfassen von Texten kann die zweite Art von Halluzinationen sogar noch schädlicher sein als die reine Erfindung von Rechtsfällen.“ Wenn ein Tool Quellen liefere, die zwar verlässlich zu sein scheinen, in Wirklichkeit aber irrelevant oder widersprüchlich sind, könnten die Nutzer in die Irre geführt werden. „Es wäre möglich, dass man den Ergebnissen des Tools unangemessenes Vertrauen entgegenbringt, was zu fehlerhaften rechtlichen Urteilen und Schlussfolgerungen führen könnte“, so die Autoren der Studie.
Die Forscher geben mehrere Herausforderungen an, die besonders für RAG-basierte juristische KI-Systeme typisch sein sollen und Halluzinationen verursachen.
So besteht das Recht im Gegensatz zu anderen Bereichen nicht vollständig aus überprüfbaren Fakten, sondern wird im Laufe der Zeit von Richtern in Form von Gutachten aufgebaut. „Das macht es schwierig, die Menge der Dokumente zu ermitteln, die eine Anfrage definitiv beantworten, und manchmal treten Halluzinationen auf, weil der Abrufmechanismus des Systems versagt.“
Auf Basis ihrer Ergebnisse unterstreichen die Forscher die Notwendigkeit eines strengen und transparenten Benchmarkings von KI-Tools im Rechtsbereich. „Im Gegensatz zu anderen Bereichen ist der Einsatz von KI im Rechtswesen nach wie vor erschreckend undurchsichtig: Die von uns untersuchten Tools bieten keinen systematischen Zugang, veröffentlichen nur wenige Details über ihre Modelle und geben keinerlei Bewertungsergebnisse bekannt.“ Dies erschwere eine verantwortungsvolle Einführung.
Der Mangel an Transparenz bedrohe auch die Fähigkeit von Anwältinnen und Anwälten, die Anforderungen der Berufsethik und der beruflichen Verantwortung zu erfüllen, so die Forscher abschließend.
Be the first to comment