Die Themen Datenschutz und Modellverwaltung sind in der Datenwissenschaft zwar nicht neu, doch GenAI hat ihnen eine neue Dimension der Komplexität verliehen, die Datenschutzbeauftragte vor neue Herausforderungen stellt. Die Data-Science-Spezialisten von KNIME haben die Potenziale und Risiken der KI-Nutzung beim Einsatz bei der Datenarbeit zusammengefasst und empfehlen vier Schritte zur Risikominimierung. [...]
Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht und beeinflusst zunehmend verschiedene Bereiche von Technologie und Wirtschaft. Dazu gehören auch die Bereiche Datenanalyse und Datenwissenschaft (Data Science). Allerdings birgt der Einsatz von KI-gestützten Tools, beispielsweise im Bereich generativer KI (GenAI), erhebliche Risiken. Die Themen Datenschutz und Modellverwaltung sind in der Datenwissenschaft zwar nicht neu, doch GenAI hat ihnen eine neue Dimension der Komplexität verliehen, die Datenschutzbeauftragte vor neue Herausforderungen stellt. Laut einer Studie von Cisco verbieten 27 Prozent der Unternehmen den Einsatz von GenAI-Tools komplett, um Risiken entgegenzuwirken.
Die Data-Science-Spezialisten von KNIME haben die Potenziale und Risiken der KI-Nutzung beim Einsatz bei der Datenarbeit zusammengefasst und empfehlen vier Schritte zur Risikominimierung, um die Vorteile von GenAI und KI-Tools effektiv und sicher nutzen zu können. Ein Schlüsselelement ist dabei auch die Verwendung von Tools, die auf visuellen Workflows basieren. Diese haben sich auch in der Vergangenheit bereits für das transparente und kollaborative Arbeiten mit Daten etabliert.
„Wie gehen wir mit all den Risiken von GenAI um?“ Dies Frage beschäftigt aktuell Management-Teams, Governance-Verantwortliche sowie auch Datenwissenschaftler in vielen Unternehmen. Für ein effektives Management, sollten daher im ersten Schritt die Risiken und Potenziale für den Einsatz von GenAI-Tools bei der Datenarbeit und Datenanalyse analysiert werden. Dies sollte unter Beachtung der unternehmenseigenen Richtlinien und Risikotoleranz sowie Branchenvorgaben geschehen.
Schritt 1: Analyse der Potenziale und Risiken für Data Scientists
Potenziale: Traditionell investieren Fachleute in der Datenaufbereitung und -analyse bis zu 80 Prozent ihrer Zeit in die Vorbereitung der Daten, bevor sie mit der eigentlichen Analyse und der Ableitung von Entscheidungen beginnen können – ein Problem, das seit Jahrzehnten ungelöst ist. Dieser zeitintensive Prozess umfasst das Sammeln, Bereinigen, und Modellieren von Daten sowie das Verständnis der geschäftlichen Zusammenhänge. Künstliche Intelligenz bietet jetzt das Potenzial, diesen Prozess deutlich effizienter zu gestalten und so die Datenaufbereitung erheblich zu beschleunigen. Mithilfe von KI-gestützten Tools lassen sich zeitaufwändige und repetitive Aufgaben automatisieren, die zuvor manuell erledigt werden mussten. Das spart Zeit. Data Engineers und Analysts können sich damit wieder verstärkt auf ihre eigentliche Arbeit fokussieren und sich um komplexe Fragestellungen bzw. die eigentliche Analyse und Interpretation der Ergebnisse kümmern.
Risiken: Zu den Risiken gehören die Sicherstellung der Datenqualität, denn KI-Modelle lernen aus Daten. Wenn diese Daten minderwertig oder ungenau sind, können sie zu falschen oder diskriminierenden Ergebnissen führen. Darüber hinaus beinhaltet die Nutzung von KI in der Datenwissenschaft auch Datenschutzrisiken. Es gab bereits Vorfälle bei denen vertrauliche oder persönliche Daten versehentlich an KI-Tools weitergegeben wurden. Es kam auch vor, dass Dritte sensible Informationen, die an diese Tools gesendet werden, lesen können.
Ein weiterer Aspekt ist die Modell-Governance: Die Einführung von GenAI-Tools erfordert strenge Governance-Vorgaben, um sicherzustellen, dass die Modelle ordnungsgemäß überwacht, aktualisiert und überprüft werden. Ohne klare Richtlinien können KI-Tools fehlerhafte oder auf veralteten Daten beruhende Entscheidungen treffen.
Schritt 2: Zugriffskontrollen festlegen
Eine effektive Data-Governance verlangt klare Richtlinien und strenge Zugriffskontrolle, die regelt, dass nur autorisierte Mitarbeiter Zugang zu den notwendigen Datensätzen haben, und diese Zugriffe auf der passenden Ebene beschränken werden. Das minimiert das Risiko von Datenlecks und unbefugtem Zugriff bei der Nutzung von GenAI-Tools. Moderne Datenanalyse-Plattformen bieten Funktionen zur Steuerung des Zugriffs auf KI-Tools. Administratoren können vertrauenswürdige Proxy-Anbieter festlegen, um sicherzustellen, dass nur geprüfte und zugelassene KI-Tools in den Daten-Workflows verwendet werden. Zudem können sie Anonymisierungs- und Validierungs-Workflows einrichten, die verhindern, dass personenbezogene Daten oder andere vertrauliche Informationen an externe Server übermittelt werden. Dadurch werden potenzielle Risiken vor der Verarbeitung durch die KI abgefangen.
Schritt 3: Modell- und Qualitätsrisiken minimieren
Künstliche Intelligenz ist heute bereits sehr leistungsstark, ersetzt aber keine natürliche Intelligenz. Eine Überprüfung von KI-Auswertungen durch Fachpersonal, sollte daher in vielen Fällen ein Teil des Prozesses sein. Im Idealfall erlaubt es eine Plattform zur Datenbearbeitung den Administratoren auf jeden Workflow zurückblicken, der ein ungenaues oder auffälliges Ergebnis erzeugt hat. Eine genaue Protokollierung sollte zeigen, welche Validierungs-Workflows ausgelöst wurden (z. B. der PII-Anonymisierungs-Workflow oder bestimmte Workflows, die den Zugriff auf GenAI-Tools blockieren). Datenwissenschaftler können diese Erkenntnisse nutzen, um ihren Governance-Ansatz zu ändern oder zu verbessern. Falls mit dem verwendeten GenAI-Tools Probleme auftreten, erlauben transparente Tools die zum Beispiel visuelle Workflows verwenden, eine einfache Überprüfung der Eingabeaufforderungen, die häufig Ursachen aufzeigen. Insgesamt ermöglicht die Transparenz über alle Schritte im Workflow eine schnelle Identifizierung von Fehlern und Ungenauigkeiten, was den Governance-Prozess unterstützt und das Vertrauen in KI-Tools stärkt.
Schritt 4: Schulungen und Weiterbildung initiieren
Die rasante Entwicklung von GenAI erfordert kontinuierliche Schulungen für Data Scientists, um sicherzustellen, dass sie mit den neuesten Technologien und deren Herausforderungen vertraut sind. Fortschrittliche Datenanalyse-Plattformen bieten dazu Unterstützung. Visuelle Workflows erleichtern Anfängern den Einstieg in Datenbearbeitung. Mithilfe einer kurzen Schulung sowie Adhoc-Support durch Chatbots können sie innerhalb von wenigen Stunden erste Workflows erstellen, die beispielsweise Tabellen zusammenfassen oder Daten aus einem Warehouse abrufen.
Im Idealfall stellen Anbieter von Datenanalyse-Plattformen auch Schulungsoptionen oder sogar Zertifizierungen für unterschiedliche Vorkenntnisse und Rollen zur Verfügung.
„Generative AI bietet Data Scientists enorme Möglichkeiten, ihre Arbeit effizienter, aber auch kreativer zu gestalten. Die durch GenAI eingesparte Zeit kann auf komplexere Analysen der Daten verwendet werden, für die das Expertenwissen essenziell ist. Allerdings ist es dabei wichtig, für jedes Unternehmen die richtige Balance zwischen der freizügigen Nutzung dieser neuen Technologien und der Einschränkung zur Vermeidung von Risken zu finden“, erklärt Michael Berthold, Gründer und CEO von KNIME. „Bei KNIME legen wir daher großen Wert darauf, eine intuitive Entwicklungsumgebung bereitzustellen, in der die Anwender die Flexibilität haben, die meisten Entscheidungen selbst zu treffen, die IT oder Compliance-Abteilung bestimmte Aspekte der KI Nutzung aber steuern oder sogar einschränken kann. Je nach den für die ihr Unternehmen geltenden Vorgaben.“
Be the first to comment