Die Datenqualität für KI verbessern

Laut McKinsey fließen ganze 70 Prozent der Bemühungen bei der Entwicklung KI-basierter Lösungen in die Datenbereinigung und -abstimmung. Wie können Unternehmen also langfristig erfolgreich sein? Die folgenden sechs Tipps helfen dabei, die Datenqualität sicherzustellen. [...]

Jens_Kambor__Vice_President_of_Sales_DACH_bei_Informatica — Jens Kambor ist seit Anfang 2024 Vice President of Sales für Deutschland, Österreich und die Schweiz bei Informatica. (c) Informatica

Damit Unternehmen durch künstliche Intelligenz (KI) korrekte und verwertbare Erkenntnisse erhalten, benötigen sie riesige Datenmengen in hoher Qualität innerhalb kurzer Zeit, und zwar unabhängig vom Format. Keine leichte Aufgabe, denn oftmals sind die Daten über verschiedene Standorte, Abteilungen, Datenbanken und Applikationen in der Firma verteilt und liegen in unterschiedlichen Formaten vor. Nur eine solide Strategie stellt sicher, dass die Daten stets verfügbar, präzise und konsistent sind. Die gute Nachricht: Datenmanagement kann dabei helfen, die KI ordentlich aufzusetzen und in der Praxis zu unterstützen.

Standards für die Datenqualität festlegen

Standards bilden die Grundlage für qualitativ hochwertige Daten. Dazu zählen Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Relevanz. Um diese präzise festzulegen, müssen alle relevanten Personen und Interessensgruppen im Unternehmen zusammenarbeiten und ihre unterschiedlichen Perspektiven, Bedürfnisse und Fachkenntnisse einbringen.

Datenqualitätsstandards bilden die Grundlage für eine effektive Data Governance, da sie klare Erwartungen und Richtlinien für die Erfassung, Speicherung, Nutzung und Sicherheit von Daten definieren. Standards vereinfachen zudem die Datenmigration und -integration, ohne Probleme durch Inkompatibilität oder Inkonsistenz zu verursachen. Außerdem stellen sie sicher, dass die Daten, die für KI-Modelle und Analysealgorithmen zum Einsatz kommen, verlässlich und aussagekräftig sind. Nur so entstehen genaue und gewinnbringende Ergebnisse.

Klare Datenqualitätsstandards geben Experten Richtlinien für die Überprüfung von Daten vor. Dies verdeutlicht allen Teams im Unternehmen die Bedeutung der Datenqualität und zeigt ihre Auswirkungen auf.

Data-Governance-Praktiken regeln

Data Governance bezieht sich auf den Prozess, die Rahmenbedingungen, Richtlinien und Kontrollmechanismen, die sicherstellen, dass Daten in einer Organisation effektiv verwaltet, geschützt, verfügbar gemacht und genutzt werden können.
Die Implementierung von Data-Governance-Praktiken definiert und dokumentiert unmissverständlich datenbezogene Aufgaben und Verantwortlichkeiten im gesamten Unternehmen. Dies trägt dazu bei, dass diese Aufgaben ernst genommen und eingehalten werden. Die Beschäftigten verstehen, dass das Datenmanagement ein wichtiger Bestandteil ihrer Verantwortlichkeiten ist und eine entscheidende Rolle spielt.

Ohne diesen wichtigen Schritt besteht die Gefahr, dass eine Kultur des Misstrauens entsteht. Die Mitarbeitenden könnten etwa Zweifel an der Genauigkeit, Integrität und Verlässlichkeit der Daten haben, die sie verwenden. Das wiederum kann zu einem Mangel an Vertrauen in die Daten und Entscheidungen, die auf ihnen basieren, führen. Im schlimmsten Fall führt ein Fehlen von Data-Governance-Praktiken zu falschen Entscheidungen, die sich negativ auf den Ruf und den Gewinn des gesamten Unternehmens auswirken.

Mit Data Profiling Inkonsistenzen aufdecken

Die Qualität der Daten (Vollständigkeit, Genauigkeit, Konsistenz und Aktualität) sollte regelmäßigen Prüfungen unterliegen, um Probleme frühzeitig aufzudecken. Sonst könnten Entscheidungen fallen, die auf falschen Informationen beruhen. Wenn etwa Daten in verschiedenen Teilen eines Systems inkonsistent sind, führt dies zu Widersprüchen und Verwirrung. Unterschiedliche Datensätze können beispielsweise verschiedene Werte für dasselbe Merkmal enthalten. Auch die Missachtung von Vorschriften steht im Raum, was rechtliche und finanzielle Auswirkungen nach sich ziehen kann.

Zuständig für die Qualität der Daten sind Experten für Data Profiling und Datenvalidierung. Die Datenprofilierung ist der erste Schritt der Datenaufbereitung und verschafft einen Überblick darüber, über welche Informationen das Unternehmen überhaupt verfügt. So entsteht ein Verständnis für die grundlegenden Eigenschaften, Qualität und Struktur der Daten. Dieser Schritt spielt eine wichtige Rolle, da Daten oft in verschiedenen Tools und Anwendungen verstreut sind, etwa in der Customer-Data-Plattform, im ERP- oder dem Bezahlsystem. Mithilfe von Data Profiling gelingt es, das gesamte Unternehmensdatenökosystem zu durchforsten und herauszufinden, wo zum Beispiel überall Kundendaten gespeichert sind und welche Anwendungen sie nutzen.

Dieser Prozess deckt potenzielle Fehler oder Inkonsistenzen auf wie unterschiedliche Schreibweisen von Adressen oder Kontaktdaten. Data Profiling bringt ans Tageslicht, ob wichtige Informationen fehlen. Dazu zählt zum Beispiel, dass in einem anderen System Daten über den Familienstand eines Kunden vorliegen, die bisher nicht genutzt wurden und für gezielte Marketingaktionen in Form eines Familienrabatts eingesetzt werden. Fehlende Informationen können sich auch direkt auf die Zufriedenheit der Kunden auswirken und damit einen guten Kundenservice erschweren.

Auf Data Observability setzen

Data Observability bezieht sich auf die Fähigkeit, Daten in einem Informationssystem kontinuierlich zu überwachen, zu verstehen und zu steuern. Das soll gewährleisten, dass sie zuverlässig, konsistent und qualitativ einwandfrei vorliegen. Unternehmen gewinnen so die notwendigen Erkenntnisse, die bei der Verwaltung ihrer Datenprozesse helfen und potenzielle Risiken im Zusammenhang mit Datenqualität, Datenschutz und Compliance proaktiv identifizieren und mindern. So bleiben die Datensätze nicht nur zuverlässig und genau, sondern lassen sich auch zeitnah abrufen.

Data Observability baut ein System auf, das proaktiv auf Probleme aufmerksam macht. Es erkennt, wo Inkonsistenzen bestehen und ermöglicht ein frühzeitiges Gegensteuern. Zudem lassen sich damit Data-Governance-Praktiken verbessern sowie Datenpipelines und Daten-Workflows optimieren, indem es Einsicht in Performance-Metriken, Datenlatenz und Ressourcennutzung gewährt.

Auch hier kann die KI unterstützen, indem sie etwa automatisch Anomalien in Datenströmen erkennt, die auf Datenqualitätsprobleme, Leistungsprobleme oder Sicherheitsrisiken hinweist. Dies ermöglicht es Firmen, Datenprobleme proaktiv zu erkennen und schnell zu beheben.

Gemeinsame Datennutzung und Zusammenarbeit fördern

Experten tragen wesentlich dazu bei, eine gemeinsame Datennutzung und Zusammenarbeit zu fördern, insbesondere vor dem Hintergrund der stetig wachsenden Anzahl von Datenquellen und Nutzern. Sie verfügen über ein tiefes Verständnis für Datenmanagement, -analyse und -interpretation und können beispielsweise andere Angestellte im Umgang mit Daten schulen oder als Vermittler zwischen verschiedenen Abteilungen und Teams fungieren. So lassen sich Silos abbauen und der Informationsaustausch erleichtern.

Laut IDG Research greifen die meisten IT-Systeme von Unternehmen heutzutage auf 400 verschiedene Datenquellen zurück, wobei die großen Firmen sogar mit tausend oder mehr Datenquellen arbeiten. Deshalb sollten die Unternehmen auf einen Datenmarktplatz zum Austausch zwischen Datengebenden und Datennutzenden setzen.

Hier können Data Scientists, Analysten und weitere Fachleute auf eine Bandbreite an Datensätzen aus vielen verschiedenen Quellen zugreifen. Dies fördert die abteilungsübergreifende Zusammenarbeit und unterstützt dabei, neue Erkenntnisse und Lösungen durch Datennutzung und -analyse zu entwickeln. Zudem ergeben sich daraus zusätzliche Einnahmequellen und ein höherer ROI.

Selfservice-Datenzugriff anbieten

Nutzer sollten die Möglichkeit haben, genau dann auf die Daten zuzugreifen, wenn sie sie benötigen, ohne auf das IT-Team angewiesen zu sein. Die Vorteile liegen auf der Hand: Die Teams arbeiten so agiler und können besser auf neue Geschäftsanforderungen reagieren. Das führt zu mehr Eigenverantwortung und stellt den Zugriff auf sichere und zuverlässige Inhalte für sämtliche Nutzergruppen sicher, unabhängig von ihrem technischen Fachwissen. Außerdem kann sich das IT-Team so besser auf geschäftskritische, strategische Aufgaben konzentrieren.

Der Selfservice-Zugriff garantiert außerdem, dass Data-Governance- und Compliance-Vorgaben eingehalten werden, da jeder die Daten auf eine einheitliche und geregelte Art und Weise nutzt. Das revolutioniert die Datennutzung, erhöht die Produktivität und steigert die Arbeitsmoral.

Fazit

Mit diesen Empfehlungen befinden sich Unternehmen auf einem guten Weg, hochwertige Daten zu erhalten und für KI gewappnet zu sein: Sie können Daten auf jede mögliche Art und Weise nutzen und analysieren, um intelligentere Entscheidungen zu treffen, ihre KI- und Analytics-Projekte erfolgreich umzusetzen und Abläufe zu optimieren.

* Jens Kambor ist seit Anfang 2024 Vice President of Sales für Deutschland, Österreich und die Schweiz bei Informatica.