„Jede Ausgabe eines Large Language Models ist eine Hallunization“

„Innovastionsdruck und die Einhaltung ethischer Standards müssen keine Gegensätze sein“, sagt DI Dr. Bernhard Nessler, Research Manager for Intelligent Systems and Certification of AI am Software Competence Center Hagenberg (SCCH), im Gespräch mit ITWelt.at. [...]

DI Dr. Bernhard Nessler ist Research Manager for Intelligent Systems and Certification of AI am Software Competence Center Hagenberg (SCCH). (c) SCCH

Wie können Unternehmen sicherstellen, dass durch Halluzinationen von LLMs wie ChatGPT keine falschen geschäftskritischen Entscheidungen getroffen werden?

Gar nicht. Jede Ausgabe eines Large Language Models bzw. eines generativen Modells ist eine Halluzination. Das Modell erzeugt einen plausibel klingenden Text, der zur Frage passt. Manche solcherart halluzinierten Antworten gefallen uns und manche gefallen uns nicht. Und es ist großteils vom Bediener abhängig, welche Outputs ihm gefallen und welche nicht. Heutige Modelle werden darauf trainiert, Antworten zu erzeugen, die möglichst vielen Menschen gefallen, aber es gibt dabei immer wieder Ergebnisse, die nicht unserem üblichen Verständnis von faktischer Richtigkeit entsprechen.

Man könnte jetzt sagen, es muss einfach jede Antwort von einem Menschen geprüft werden, aber auch das greift zu kurz, da Menschen bereits nach der Beobachtung von wenigen richtigen Antworten der Maschine dazu neigen, künftigen Antworten blind zu vertrauen. Dieser sogenannte Automation Bias macht also einfache menschliche Kontrolle in automatisierten Prozessen weitgehend unwirksam.

Eine technische Lösung besteht zurzeit darin, Systeme einzusetzen, die selbständig nachvollziehen, aus welchen Datenquellen Antworten und Entscheidungen entspringen und nur jene Antworten zuzulassen, die nach bestimmten Schemata aus gesicherten, vorab geprüften Inputs konstruierbar sind. Der Nachteil dieser Lösung besteht in der u. U. starken Einschränkung der Kreativität der so beschränkten Systeme, aber in gewissen klar definierbaren Problemstellungen ist genau diese Beschränkung wünschenswert und zielführend.

Welche Maßnahmen sollten ergriffen werden, um die von der KI erzeugten Vorurteile zu minimieren, die aufgrund von unausgewogenen oder fehlerhaften Trainingsdaten entstehen? Beispiele: Personalwesen und Kreditvergabe.

Grundsätzlich werden Vorurteile nicht von KI-Systemen oder durch Machine Learning erzeugt, sondern von Menschen. Ein VOR-Urteil meint klassischerweise eine Fehl-Einschätzung, die lediglich eine oberflächliche Gruppenzugehörigkeit als Entscheidungsbasis heranzieht, anstatt mühevoll die tiefergehenden Fakten des Einzelfalls spezifisch zu bewerten. Menschen neigen aus ihrer biologischen Evolution heraus zu solchen Vorurteilen, da diese sehr effiziente Entscheidungen im Überlebenskampf lieferten. KI-Systeme werden typischerweise daraufhin optimiert unter Berücksichtigung aller Fakten und Daten eine optimale Entscheidung in Hinblick auf das definierte Ziel (möglichst hohe Produktivität der Mitarbeiter und Mitarbeiterinnen, möglichst geringe Ausfallrate des Kreditnehmers) zu geben. In diesem Sinn sind also KI-System per Definition frei von VOR-Urteilen.

Natürlich können KI-Systeme und ihre wohloptimierten Ergebnisse durch gezielte Auswahl oder Veränderung von Trainingsdaten in beliebiger Weise manipuliert werden. Eine korrekte Definition der Datendomäne und eine statistisch valide Methode des Samplings von Trainingsdaten ist daher eine notwendige Voraussetzung für eine hohe Qualität der resultierenden Entscheidungen. Die entsprechenden Techniken zur Datenerhebung sind aus der Statistik seit Jahrzehnten bekannt und müssen einfach nur angewendet werden. Viele AI-Entwickler-Teams sind jedoch primär auf den mathematischen Part des ML-Modells fokussiert. Das statistische Knowhow einer korrekten Datenerhebung fehlt, und so kommt es oft auch unbeabsichtigt zu Modellen geringer Qualität mit Verzerrungen.

Welche Strategien sollten Firmen implementieren, um die Transparenz und Nachvollziehbarkeit der von KI getroffenen Entscheidungen zu gewährleisten – Stichwort Blackbox-Problem?

Ein gewisses Maß an Transparenz ist sinnvoll, soweit dies technisch möglich und der Kritikalität der Anwendung angemessen ist. Den Begriff der Black-Box für trainierte ML-Modelle finde ich persönlich unangebracht, diese Modelle erlauben es jede Verarbeitung vom Input weg Schritt für Schritt durch die gesamte Berechnung des Modells nachzuvollziehen. Im Gegensatz zu einem biologischen Gehirn, dessen Verarbeitungsschritte ich tatsächlich NICHT beobachten oder reproduzieren kann, ist ein ML-Modell zu 100 Prozent transparent. Ich spreche daher lieber von einer Glass Box. Transparenz und Nachvollziehbarkeit wird also dadurch erreicht, dass man z. B. nur Modelle einsetzt, die der Verantwortliche selbst kontrollieren kann, sodass er zu jedem Zeitpunkt Einblick in alle Ebenen der Verarbeitung nehmen kann. Dies können selbst gehostete Open-Source, Open-Weight on premise sein, oder vom Verantwortlichen selbst neu trainierte oder angepasste Modelle. Modelle, die lediglich über API-Schnittstellen zugänglich sind, sind hier deutlich problematischer, da über API-Schnittstellen typischerweise nur Input und Output übermittelt werden, jedoch keine inneren Zwischenresultate des Modells.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Wie können Unternehmen die Balance zwischen Innovationsdruck und der Einhaltung ethischer Standards bei der KI-Entwicklung sicherstellen?

Innovastionsdruck und die Einhaltung ethischer Standards müssen keine Gegensätze sein. Sauber entwickelte, gut dokumentierte Entwicklungsprozesse sind beiderseits vorteilhaft. Eine Zertifizierbarkeit am Ende der Entwicklung ist zugleich Garant für die Qualität des Produktes als auch der Einhaltung hoher ethischer Standards. Eine Zertifizierung kann dann bei Bedarf oder rechtlicher Notwendigkeit über den Test- und Qualifizierungs-Hub TRUSTIFAI abgewickelt werden (www.trustifai.at).

Wie sollten Unternehmen mit der Unsicherheit in Bezug auf die Zukunft von KI umgehen – insbesondere angesichts der rasend schnellen Weiterentwicklung?

Ein strukturiertes Vorgehen wäre hier empfehlenswert, sozusagen eine innerbetriebliche Digitalisierungs- und AI-Agenda. An erster Stelle sollte das Unternehmen sich seiner Daten bewusst werden, wobei hier inzwischen gilt, dass auch unstrukturierte Daten sehr wertvoll sind, da KI-Methoden eingesetzt werden können, um diese zu interpretieren. Dann sollten die bestehenden Unternehmensprozesse durchleuchtet werden, insbesondere in Hinblick darauf, welche Daten in welche Prozesse einfließen, und dabei geprüft werden, welches Einsparungspotenzial von einem betriebsinternen Informationssystem (RAG-System) ausgehen würde. Darüber hinaus sollte an dieser Stelle geprüft werden, welche neue Wertschöpfung über die bestehenden Prozesse hinaus durch KI-Methoden erzielt werden. Bei dem gesamten Vorgang stehen Experten des Software Competence Center Hagenberg (SCCH) gerne beratend zur Seite.

Wie beeinflusst der zunehmende Einsatz von KI die Arbeitsplatzsicherheit, und welche Verantwortung tragen Unternehmen, um den Verlust von Arbeitsplätzen zu minimieren?

Es ist die Aufgabe eines Unternehmens, möglichst effizient und konkurrenzfähig zu produzieren. Erfahrungsgemäß gehen außerdem durch KI bisher Arbeitsplätze nicht verloren. Die Tätigkeiten werden verändert, das Bedienen des KI-Werkzeugs wird zu einer essentiellen Kompetenz am betreffenden Arbeitsplatz. Insgesamt wird so die Produktivität gesteigert und der Arbeitsplatz aufgewertet.

Welche Regeln sollten Unternehmen für den Zugriff auf und die Nutzung von Daten durch KI-Systeme festlegen, um den Schutz sensibler Informationen zu gewährleisten?

Hier ist der derzeit schwierigste Bereich wohl die Nutzung von Online-Systemen wie ChatGPT & Co durch die eigenen Mitarbeiter. Es ist die Aufgabe von Unternehmen, im eigenen Betrieb klarzumachen, dass die Nutzung dieser Online-Systeme für betriebliche Zwecke nicht erlaubt ist. Hier geht es nicht nur um private oder persönliche Daten, sondern auch um Ideen, Arbeitsansätze und Strategien, die unbeabsichtigt die Kontrolle des Betriebes verlassen. Die meisten Datenschutzvereinbarungen dieser Service-Provider sehen vor, dass die übermittelten Daten zur Verbesserung des Service benützt werden dürfen, womit umfasst ist, dass diese Daten als Trainingsdaten für künftige Modelle herangezogen werden können. Selbst wenn die Service-Anbieter in Lizenzvereinbarungen versprechen, die Daten für keine eigenen Zwecke zu nutzen, so bleibt immer noch die Ausnahme für die Behörden und der immanente Zugang von Geheimdiensten, jedenfalls bei allen US-Providern, wobei hier wieder KI eingesetzt wird, um die massive Flut von Daten zu analysieren. Wirtschaftsspionage erreicht mit outgesourcten KI-Anwendungen wie ChatGPT ein völlig neues Niveau. Bildlich gesprochen erreicht die europäische Patentidee, für deren Präsentation der Mitarbeiter ChatGPT nützt, die Analysewerkzeuge der CIA oder NSA, lange bevor der Vorstand in Europa die Idee überhaupt zu Gesicht bekommt.

Die einzige Möglichkeit, echte betriebliche Geheimhaltung sicherzustellen, ist eine On-premise-Lösung, bei der Large Language Modelle und RAG-Systeme auf Unternehmens-eigenen Servern betrieben werden. Diverse Anbieter, auch das SCCH, unterstützen unsere heimischen Unternehmen darin, solche selbst gehosteten Systeme einzurichten, die in der Qualität für den professionellen Anwendungszweck durchaus mit ChatGPT vergleichbar sind und dann spezifisch nur den Mitarbeitern des jeweils eigenen Unternehmens zur Verfügung stehen.

Was sind aus Ihrer Sicht die größten Lücken des AI Acts und wie lassen sich diese am effektivsten schließen?

Der AI Act ist meines Erachtens insgesamt ein ungenügender Versuch, die Herausforderungen der digitalen Gesellschaft alleine unter dem Schlagwort „AI“ zu lösen. Bereits die Unmöglichkeit, abzugrenzen, wo „normale“ IT-Systeme aufhören und „potentiell gefährliche“ AI-Systeme anfangen, zeigt, dass die Regulierung weit an der Praxis vorbeigeht. Eine der schwerwiegendsten ist die durch den AI Act geschaffene Rechtsunsicherheit. Die Bestimmungen sind derart vage, dass unklar ist, ob intelligente Suchmaschinen und Social Media Timelines überhaupt unter die Dokumentations- und Transparenzpflichten für AI-Systeme fallen. Auch die verbotenen Praktiken könnten – bei strikter Auslegung – AI-generierte Werbung unter bestimmten Umständen verbieten, obwohl dasselbe Produkt, ohne Einsatz von AI völlig legal ist. Es wird Jahre dauern, bis höchstgerichtliche Urteile die Bandbreite der akzeptablen Interpretationen festlegen.

Fest steht, dass Anbieter sogenannter Hochrisiko-AI-Systeme sich mit einem erheblichen Mehraufwand an Prüf- und Dokumentationsarbeit konfrontiert sehen. Die unklare Gesetzeslage bewirkt außerdem, dass die Qualität der vom AI Act vorordneten Konformitätsbewertung für derartige Systeme weitgehend vom Zertifizierer abhängen wird. Nur wenige Anbieter von AI-System-Zertifizierungen haben – so wie beispielsweise TrustifAI – jahrelange Forschungsarbeit in den Prüfprozess investiert. Dieser Umstand könnte sich negativ für die Entwickler und Anbieter von AI Systemen auswirken.

Auch der vom EU-Gesetzgeber verfolgte „New Approach“ kann die eklatante Unklarheit des AI Act nicht rechtfertigen. Zwar beschränkt sich die EU-Gesetzgebung beim „New Approach“ auf die Festlegung grundlegender Produktanforderungen und überlässt die technische Ausgestaltung den Standardisierungsgremien, doch ohne klare Abgrenzungen im Anwendungsbereich ist es kaum möglich, wirksame Standards zu entwickeln. Es scheint, der Ball liegt zu guter Letzt bei der EU Kommission, die in den von ihr zu erlassenden Richtlinien noch Klarheit schaffen könnte.

Der AI Act läuft also Gefahr, selbst ein erhebliches Risiko für die Wettbewerbsfähigkeit und Innovationskraft in Europa zu sein. Es würde mich sehr freuen, hier durch Fakten vom Gegenteil überzeugt zu werden.

Philosophische Frage: Wie würde ein Vergleich von menschlicher Intelligenz und KI ausfallen, wenn man den Anteil von Halluzinationen und Vorurteilen in Entscheidungsprozessen gegenüberstellt, die zweifelsfrei auf beiden Seiten existieren?

Der menschliche Denkprozess ist komplex und noch nicht vollständig verstanden. Eine verbreitete Theorie besagt, dass Entscheidungen aus der Interaktion zweier kognitiver Systeme entstehen: System 1 ist schnell und intuitiv, verarbeitet viele Eingaben gleichzeitig und führt routinemäßige oder sich wiederholende Aufgaben automatisiert und unbewusst aus. Es wird oft als „Bauchgefühl“ bezeichnet und entwickelt sich durch Erfahrung. System 1 kann jedoch leicht getäuscht werden, besonders in unbekannten oder irreführenden Situationen. System 2 hingegen ist analytisch und rational, ein langsamer, bewusster Prozess, der einige wenige Fakten bewerten und logisch verknüpfen kann. Die klassische Programmierung orientiert sich an diesem schrittweisen, regelbasierten Denken von System 2.

Moderne, auf maschinellem Lernen basierende KI, wie ChatGPT, folgt hingegen einem konnektionistischen Ansatz und imitiert die schnelle Mustererkennung von System 1. ChatGPT erzeugt schnelle, intuitive Antworten basierend auf gelernten Mustern, was oft zu plausiblen, aber nicht vollständig durchdachten Antworten führt. Komplexe oder nuancierte Aufgaben überfordern es daher leicht, da das Modell keine tiefere Reflexion wie System 2 anwendet.

Während strukturiertes, rationales Denken traditionell mit System 2 verknüpft ist, zeigt ChatGPT einen Ansatz rein intuitiver Sprachverarbeitung – wie ein Papagei, der Sprache ohne Reflexion imitiert. ChatGPT-4 kann jedoch, wenn richtig angewiesen, auch systematischer vorgehen und so komplexere Aufgaben lösen, doch bleibt es im logischen Denken hinter dem Menschen zurück. Es übertrifft jedoch jede menschliche sprachliche Intuition, kann aber im Gegensatz zu Menschen nicht eigenständig lernen, sondern benötigt intensives, von Menschen geleitetes Training.

ChatGPT stellt daher nur einen Schritt in der KI-Entwicklung dar. Ein vollständiger Vergleich zur menschlichen Kognition wäre erst möglich, wenn in KI-Systemen sowohl System 1 als auch System 2 integriert wären. Die Frage, wie eine solche Integration aussehen könnte, bleibt bisher offen, und stellt eines der aktuell spannendsten Felder in der KI-Forschung dar.

Können Maschinen denken?

Alan Turings jahrzehntealte Frage und sein berühmter Turing-Test haben mit dem Aufkommen von ChatGPT und anderen Large Language Models eine neue und kontroverse Diskussion ausgelöst. Wann werden wir beginnen, einen KI-Bot als gleichwertig oder sogar menschlicher als andere Menschen wahrzunehmen? Kann man einen KI-Bot durch eine einfache Konversation von einem Menschen unterscheiden? Im Turing Game treten zwei Menschen gegen eine Maschine an und müssen gemeinsam den KI-Bot identifizieren. Das Turing Game repräsentiert aktuelle Forschungsergebnisse zum Turing-Test sowie technische und philosophische Überlegungen zu Intelligenz und Bewusstsein, einschließlich ethischer und moralischer Fragen. Es wird auf die Auswirkungen des Spiels auf die Zertifizierung und Sicherheit von KI hingewiesen. Das Turing Game www.turinggame.ai ist weltweit zugänglich.

DI Dr. Bernhard Nessler ist Research Manager for Intelligent Systems and Certification of AI am Software Competence Center Hagenberg (SCCH). Er ist Gründungsmitglied von ELLIS (ellis.eu) und Vizepräsident der Austrian Society for Artificial Intelligence (ASAI). Nach dem Diplomstudium in Telematik promovierte er im Fach Computational Neuroscience an der TU-Graz und absolvierte 2 Jahre Post-Doc am Frankfurt Institute for Advanced Studies (FIAS) und 6 Jahre Post-Doc an der JKU Linz bei Prof. Sepp Hochreiter, wo er weiterhin Studenten in Forschungs- und Abschlussarbeiten betreut. Seine aktuelle Forschung konzentriert sich auf die Verbindung zwischen technischer Intelligenz und dem menschlichen Verstand.

„Jede Ausgabe eines Large Language Models ist eine Hallunization“

„Innovastionsdruck und die Einhaltung ethischer Standards müssen keine Gegensätze sein“, sagt DI Dr. Bernhard Nessler, Research Manager for Intelligent Systems and Certification of AI am Software Competence Center Hagenberg (SCCH), im Gespräch mit ITWelt.at. [...]

Wie können Unternehmen sicherstellen, dass durch Halluzinationen von LLMs wie ChatGPT keine falschen geschäftskritischen Entscheidungen getroffen werden?

Welche Maßnahmen sollten ergriffen werden, um die von der KI erzeugten Vorurteile zu minimieren, die aufgrund von unausgewogenen oder fehlerhaften Trainingsdaten entstehen? Beispiele: Personalwesen und Kreditvergabe.

Welche Strategien sollten Firmen implementieren, um die Transparenz und Nachvollziehbarkeit der von KI getroffenen Entscheidungen zu gewährleisten – Stichwort Blackbox-Problem?

Wie können Unternehmen die Balance zwischen Innovationsdruck und der Einhaltung ethischer Standards bei der KI-Entwicklung sicherstellen?

Wie sollten Unternehmen mit der Unsicherheit in Bezug auf die Zukunft von KI umgehen – insbesondere angesichts der rasend schnellen Weiterentwicklung?

Wie beeinflusst der zunehmende Einsatz von KI die Arbeitsplatzsicherheit, und welche Verantwortung tragen Unternehmen, um den Verlust von Arbeitsplätzen zu minimieren?

Welche Regeln sollten Unternehmen für den Zugriff auf und die Nutzung von Daten durch KI-Systeme festlegen, um den Schutz sensibler Informationen zu gewährleisten?

Was sind aus Ihrer Sicht die größten Lücken des AI Acts und wie lassen sich diese am effektivsten schließen?

Philosophische Frage: Wie würde ein Vergleich von menschlicher Intelligenz und KI ausfallen, wenn man den Anteil von Halluzinationen und Vorurteilen in Entscheidungsprozessen gegenüberstellt, die zweifelsfrei auf beiden Seiten existieren?

Können Maschinen denken?

Mehr Artikel

Voys will frischen Wind in die Telekommunikationsbranche bringen

Der Cyber Resilience Act fordert Produktanpassungen

So werden Unternehmen autonom und resilient

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

Demystify hilft bei der API-Dokumentation

So vergeigt man die Übernahme einer Alt-Software

Wie Drohnen autonom fliegen lernen

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

Be the first to comment

Leave a Reply Antworten abbrechen