Die Datenexperten von KNIME haben eine Checkliste erstellt, die Unternehmen dabei hilft, zu erkennen, wann der Einsatz von GenAI sinnvoll ist – und wann traditionelle Datenanalysetechniken die bessere Wahl sind. [...]

Generative KI (GenAI) wird 2025 zweifellos entscheidende Veränderungen bei unserer alltäglichen Arbeit mit Daten anstoßen. KI-basierte Modelle wie ChatGPT und LLama können Texte und Code generieren, Bilder erstellen und Dokumentationen automatisieren – und eröffnen damit unzählige Möglichkeiten zur Effizienzsteigerung in der Datenwissenschaft. Allerdings kann GenAI, je nach Anwendungsgebiet, Arbeitsabläufe auch unnötig verkomplizieren. Die Data-Science-Spezialisten von KNIME zeigen auf, in welchen Fällen GenAI echten Mehrwert für datengetriebene Prozesse bietet und wann andere Data-Science-Ansätze sinnvoller sind.
Bei der Datenarbeit eignet sich GenAI für viele Aufgaben, deren Implementierung ansonsten sehr aufwändig wäre. Bei der Sentiment-Analyse beispielsweise benötigt man den geeigneten Datensatz, muss ein neuronales Netzwerk bauen, das Modell trainieren etc. Mit GenAI werden viele dieser Schritte abgekürzt. Technische Lösungen erfordern jedoch oft einen Kompromiss zwischen Implementierungseffizienz und Leistung. GenAI sollte daher nicht als Standardlösung, sondern vielmehr als gezielt eingesetztes, strategisches Tool betrachtet werden.
Um zu beurteilen, ob der Einsatz von GenAI in einem Projekt tatsächlich einen Mehrwert bietet, sollten Unternehmen folgende vier Kriterien prüfen:
Wie wichtig ist die Genauigkeit bei dieser Anwendung?
GenAI kann in vielen Bereichen beeindruckende Ergebnisse liefern, doch die Zuverlässigkeit großer Sprachmodelle (LLMs) variiert. Wenn ein Projekt die Verarbeitung strukturierter Daten und konsistenter, präziser Ergebnisse erfordert – etwa bei der Vorhersage von Anlagenausfällen in der Fertigung – können traditionelle Data-Science-Techniken wie Regressionsmodelle oft genauere Ergebnisse liefern. Ist Genauigkeit entscheidend, sollte die Leistung von GenAI daher sorgfältig mit seit langem bewährten Methoden verglichen werden.
Kann Transparenz und Erklärbarkeit gewährleistet werden?
Der Mangel an Transparenz in GenAI-Modellen macht es schwierig, die Gründe für die Ergebnisse zu verstehen – ein großer Nachteil bei Aufgaben, die Rechenschaftspflicht und Überprüfbarkeit erfordern. So muss beispielsweise ein Kredit-Scoring-Modell nachvollziehbar sein, um Fairness zu gewährleisten und gesetzliche Vorgaben einzuhalten. In sensiblen Bereichen wie der medizinischen Diagnostik ist Transparenz sogar noch entscheidender. Traditionelle Methoden wie Random Forest, Support Vector Machines (SVMs), Entscheidungsbäume oder lineare Regression eignen sich in solchen Fällen besser, da sie üblicherweise mehr Erklärbarkeit liefern.
Sind die nötigen Steuerungsoptionen verfügbar?
Herkömmliche Data-Science-Techniken bieten klare Parameter, um das Verhalten eines Algorithmus gezielt zu steuern. Beispielsweise kann das Erhöhen eines Schwellenwerts die Anzahl der Ausreißer reduzieren, während das Hinzufügen weiterer Bäume in einem Random Forest Modell in der Regel die Zuverlässigkeit der Ergebnisse verbessert. Im Gegensatz dazu verfügen GenAI-Modelle nur über begrenzte Parameter zur Steuerung von Ausgängen, wie beispielsweise die Anpassung der Eingabeaufforderung. Prompt Engineering bleibt jedoch intransparent, da selbst kleine Änderungen an der Eingabe zu unerwarteten und schwer erklärbaren Abweichungen in der Ausgabe führen können. Da Kontrolle und Transparenz eng miteinander verknüpft sind, eignen sich für Projekte, die eine nachvollziehbare Implementierung der Algorithmen erfordern, oft klassische Methoden besser, wenn diese eine direktere Kontrolle bieten.
In welchem Verhältnis stehen Kosten und Mehrwert?
Die Implementierung von GenAI-Anwendungen kann erhebliche Kosten mit sich bringen – sei es durch Lizenzgebühren für fortschrittliche Lösungen und Modelle oder die interne Entwicklung maßgeschneiderter Lösungen. Zudem erfordert der Implementierungsprozess erhebliche Ressourcen für die Datenvorbereitung, das Feinjustieren von Eingabeaufforderungen und die Nachbearbeitung der Ergebnisse. Gartner prognostiziert, dass bis Ende 2025 rund 30 Prozent der GenAI-Projekte nach dem Proof of Concept scheitern werden. Gründe dafür werden unter anderem hohe Kosten und ein nicht klar erkennbarer Mehrwert für Unternehmen sein. Wenn also ein einfacherer, weniger ressourcenintensiver Ansatz die gleichen Ergebnisse erzielen kann, ist er wahrscheinlich die klügere Wahl.
Abwägungsbeispiel aus der Praxis
Die genannten Abwägungen lassen sich an einem Beispiel aus der Praxis verdeutlichen: Ein Einzelhändler möchte sein Kundenfeedback kategorisieren. In diesem Fall eignet sich GenAI dank seiner Fähigkeit, natürliche Sprache zu verstehen und zu verarbeiten, hervorragend zur Klassifizierung von Inhalten in Themen oder Stimmungen (positives oder negatives Feedback). In diesem Fall sind leichte Abweichungen in der Genauigkeit akzeptabel. Die Transparenz hinsichtlich der Ergebnisfindung ist kein entscheidender Faktor und die Ergebnisse lassen sich mit vergleichsweise einfachen Anpassungen der Eingabeaufforderungen steuern. Die Automatisierung dieses Prozesses spart Zeit und Ressourcen und überwiegt damit potenzielle Risiken sowie die Kosten.
Anders sieht es bei Aufgaben wie der Segmentierung von Einzelhandelskunden oder der Betrugserkennung aus. Hier kann GenAI zu unzuverlässig sein, denn selbst kleine Änderungen in der Eingabe können zu unvorhersehbaren und unerklärlichen Ergebnissen führen. Natürlich kann man Daten in ein Modell wie ChatGPT einspeisen und eine Clusterung des Datensatzes anfordern. ChatGPT führt jedoch im Hintergrund ein Python-Skript aus und dies ist nur für einfache Datensätze und einfache Datenflüsse möglich. Sobald der Datenfluss komplexer wird, beispielsweise durch das Hinzufügen anderer Verfahren zur Merkmalsgenerierung, ist es schwierig, dies in eine KI-Eingabeaufforderung einzuspeisen. Es ist zwar möglich, GenAI so zu verfeinern, dass es mit der Präzision und Verlässlichkeit traditioneller Methoden konkurriert, doch der damit verbundene Aufwand kann die Vorteile schnell zunichte machen. In diesem Szenario eignen sich daher standardmäßige, zuverlässige und transparente Klassifizierungs- und Techniken zur Ausreißererkennung besser.
„GenAI bietet aufgrund seiner Fähigkeit, Text, Bilder, Code und mehr zu generieren, einen validen Ansatz für viele Anwendungsfälle der Datenwissenschaft. Aber es ist bei weitem nicht die universelle Antwort auf jede Aufgabe. Bei mancher Anwendung wäre der Einsatz von GenAI überdimensioniert, als würde man mit Kanonen auf Spatzen schießen, da hier traditionelle Datenanalysetechniken effizienter und genauso effektiv sind. In anderen Bereichen scheitert der Einsatz heute noch an der Genauigkeit oder Transparenz. GenAI sollte daher passgenau als strategisches Werkzeug und nicht als Standardlösung eingesetzt werden“, resümiert Rosaria Silipo, VP of Data Science Evangelism bei KNIME.
Be the first to comment