Augen und Ohren für KI: Autonome Agenten zur Aufgaben- und Prozessautomatisierung

Generative KI auf Basis von Large Language Models (LLMs) durchdringt derzeit immer mehr Anwendungsbereiche und schafft zunehmend neue Möglichkeiten. Viele haben ChatGPT oder die Bing Chat AI bereits ausprobiert und nutzen die KI-Systeme bereits als Unterstützung im Alltag oder Beruf. [...]

Foto: GerdAltmann/Pixabay

Doch was wäre, wenn solche “intelligenten” Assistenzsysteme weitaus komplexere Aufgaben übernehmen, uns gar das Denken teilweise abnehmen würden? Autonome Agenten sind bereits auf dem Vormarsch.

Bisher bieten KI-Systeme wie ChatGPT Nutzern die Möglichkeit, Frage- und Problemstellungen auf Eingabe zu beantworten oder zu lösen, sofern es sich um text-, oder im Falle von GPT-4, um bild-basierte Inhalte handelt. Die Lösung von komplexen Problemstellungen oder Prozessen, die aus mehreren Teilschritten bestehen oder über die (alleinige) Ausgabe von Text- oder Bildinhalten hinaus gingen (z. B. die Interaktion mit einer Drittanwendung), waren damit bislang nicht möglich.

Seit dem 23. März hat OpenAI offiziell die Einführung und Integration von Plugins in ChatGPT eingeführt. Ähnlich wie Plugins in Browsern, bieten diese für ChatGPT die Möglichkeit, den Funktionsumfang zu erweitern und Drittanwendungen zu integrieren.

Konnte ChatGPT bislang nur auf Wissen und Aufgabenstellungen zugreifen, die während des Trainings im Modell persistiert oder in Form von Embeddings über den Prompt mitgegeben wurden, besteht durch die Nutzung von Plugins nun die Möglichkeit, ChatGPT mit externen Anwendungen interagieren zu lassen.

So könnte ChatGPT z. B. Themen googlen, mit Datenbanken interagieren oder externe Anwendungen über eine API ansteuern. OpenAI selbst beschreibt Plugins als die “Augen” und “Ohren”, mit denen diese auf Daten und Informationen außerhalb der Trainingsdaten zugreifen kann.

Diese Entwicklung führt zu neuen und disruptiven Anwendungsmöglichkeiten von Large Language Models (LLMs): der Entwicklung von (autonomen) KI-Agenten zur Lösung und Bearbeitung von komplexen Aufgaben oder Problemstellungen.

KI-Agenten: autonome oder teilautonome Systeme

KI-Agenten (häufig auch als “intelligente Agenten” bezeichnet) kann man sich als Systeme vorstellen, die unterschiedliche Aufgaben- oder Problemstellungen (eigenständig / autonom) lösen können. Je nach Ausprägung verfügen diese über bestimmte Fähigkeiten wie Wahrnehmung (z. B. durch Sensoren), Entscheidungsfindung, Kommunikation und Handeln.

Durch diese Fähigkeiten sind sie in der Lage unterschiedliche Problem- und Aufgabenstellungen zu bearbeiten oder Lösungswege abzuleiten. Dazu interagieren die Systeme mit ihrer Umgebung und nutzen Werkzeuge (z. B. in Form von Plugins). Der Grad der Autonomie wird dabei durch den Handlungsspielraum definiert.

Dabei lassen sich Agenten grob in autonom und teilautonom handelnde Systeme einteilen:

  • Autonom handelnde KI-Agenten sind Systeme, die in der Lage sind, ihre Umgebung wahrzunehmen, Entscheidungen zu treffen und Aktionen durchzuführen, um ein bestimmtes Ziel zu erreichen, ohne auf menschliche Intervention angewiesen zu sein. Sie können sich an sich ändernde Umstände und Bedingungen anpassen, ohne menschliche Kontrolle zu benötigen.
  • Im Gegensatz dazu benötigen teilautonome KI-Agenten eine gewisse Art der menschlichen Kontrolle oder Überwachung und sind häufig in ihrem Handlungsfeld deutlich eingeschränkt. Obwohl sie in bestimmten Bereichen autonom handeln können, müssen sie in anderen Bereichen von Menschen unterstützt werden. So können sie beispielsweise bestimmte Entscheidungen autonom treffen, benötigen aber eine Bestätigung durch einen Menschen oder sie sind im Aufgaben- und Entscheidungsspielraum stark limitiert.

Potenziale (autonomer) KI-Agenten auf Basis von LLMs

Unabhängig, ob teil- oder vollständig autonom, lassen sich KI-Agenten grundsätzlich überall dort einsetzen, wo Aufgaben oder Prozesse aus mehreren Teilschritten bestehen und die Nutzung mehrerer Systeme bedingen.

So können z.B. Routine-Aufgaben oder Prozesse in der Verwaltung oder IT automatisiert werden. Wo aktuell zur Abfrage einer Datenbank z. B. ein Mensch mit entsprechender Expertise in der jeweiligen Abfragesprache die Aktion durchführen müsste, könnte ein KI-Agent mit Zugriff auf und Wissen über die Datenbank diese Aufgabe automatisiert und auf Zuruf übernehmen.

Beispiel: Problemstellung mit vier Teilschritten

Die Geschäftsführung eines Unternehmens möchte wissen, wie sich der Verkauf eines Produktes seit dem Start der letzten Marketingkampagne für eine bestimmte Zielgruppe entwickelt hat und wendet sich mit Ihrer Anfrage an das Controlling. Die typischen Schritte eines Analysten oder Controllers könnten dabei wie folgt aussehen:

  1. Identifizierung von relevanten Daten: Welche Daten werden benötigt und über welche Systeme können diese abgerufen werden?
  2. Datenbeschaffung und Vorbereitung: Abruf und Aggregation der benötigten Daten (im Fall von verteilten Systemen) aus den Datenbanken
  3. Analyse: Die eigentliche Analyse der Daten und das Extrahieren der Informationen
  4. Reporting: Erstellung eines Berichts zur Darstellung der Ergebnisse im firmeneigenen Reporting-Tool

In dem Beispiel besteht die Problemstellung aus vier Teilschritten und beinhaltet die Interaktion mit mindestens einer Datenbank, einem Reporting-Tool und ggf. einem zusätzlichen Auswertungs-Tool. Ein KI-Agent mit Zugriff und Wissen über die Steuerung der Datenbank und das Reporting- und Auswertungs-Tool (z. B. über Plugins), könnte diese Aufgabe (teil-)autonom übernehmen und durchführen.

Nun stellt sich die Frage, wozu dafür extra ein KI-Agent gebraucht wird, wenn solche Prozesse auch mit einschlägigen Automatisierungswerkzeugen umgesetzt werden können. Die Antwort ist einfach: Während man bei diesen jeden Workflow von einem Experten (oder mehreren, bei unterschiedlichen Systemen) händisch bauen müsste (und sich der Aufwand damit häufig nur bei wiederkehrender Verwendung lohnen würde), könnten KI-Agenten die Aufgabe allein aus der Aufgabenbeschreibung ableiten und lösen.

Dazu werden die Sprachverarbeitungs- und Verständnisfähigkeiten von LLMs genutzt, die mit dem Wissen über die Benutzung der Systeme und Schnittstellen (z. B. über Plugins / Prompt-Engineering), zuerst den Prozess, die Teilschritte und benötigten Werkzeuge planen und dann anschließend durchführen.

Die Geschäftsführung oder das Controlling könnten damit ihre Anfrage in natürlicher Sprache direkt an den KI-Agenten stellen: “Ich möchte wissen, wie sich der Verkauf eines Produktes seit dem Start der letzten Marketingkampagne für eine bestimmte Zielgruppe entwickelt hat.“ Der KI-Agent könnte dann automatisch (oder unter Aufsicht) in wenigen Minuten die gewünschten Ergebnisse liefern.

Fazit

Mit der Veröffentlichung von ChatGPT durch OpenAI im Dezember 2022 haben generative KI-Systeme auf Basis von LLMs ihren Durchbruch im Mainstream erlebt. Autonome KI-Agenten sind dabei die neueste Entwicklung und bieten branchenübergreifend ein großes und disruptives Potenzial.

Experimentelle Anwendungen wie AutoGPT oder BabyAGI zeigen bereits verblüffende Ergebnisse und geben eine Idee über die Möglichkeiten von KI-Agenten – auch wenn insbesondere der Einsatz von komplett autonom agierenden Agenten aktuell noch mit Limitierungen und Risiken verbunden ist.

Zukünftig ist jedoch damit zu rechnen, dass insbesondere Teil-autonome KI-Agenten mit Zugriff auf Plugins und individuelle Wissensdatenbanken ihren Platz als digitale Assistenz finden werden – vor allem in Branchen mit vielen standardisierten oder repetitiven Aufgaben wie z. B. in der IT oder Verwaltung.

*Ole Dawidzinski (30) ist Lead Data Scientist und Partner bei Tisson & Company, einer auf Data Science, Projekt- sowie Workmanagement spezialisierten Unternehmensberatung mit Hauptsitz in Hamburg. Nach seiner Ausbildung zum IT-Systemelektroniker studierte Dawidzinski Medieninformatik an der Hochschule Bremen und der Riga Technical University in Lettland.

powered by www.it-daily.net


Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*