Warum wir anfangen sollten, Daten zu lieben

Die Online-Partnerwahl und richtige Geschäftsentscheidungen haben eines gemeinsam: sie basieren auf qualitativ guten Daten. Doch qualitativ gute Daten sind eine Herausforderung. [...]

Otto Neuer ist Vice President Sales EMEA Central bei Talend. (c) Talend
Otto Neuer ist Vice President Sales EMEA Central bei Talend. (c) Talend

Nun will Facebook also Amor spielen: Auf seiner F8 Entwicklerkonferenz vermeldete das soziale Netzwerk den Einstieg in die Online-Partnervermittlung. Warum auch nicht? Die vorhandenen Nutzerdaten bilden die ideale Basis dafür, mit Hilfe eines geeigneten Algorithmus den perfekten Partner zu finden. Dafür sind jedoch Daten notwendig, die valide sind und in hoher Qualität vorliegen. Gleichzeitig ist diese Ankündigung ein gutes Beispiel dafür, wie Unternehmen ihre vorhandenen Datenschätze heben können und sich damit neue Geschäftspotenziale eröffnen.

Wie aber gelingt es Unternehmen generell, die eigene Datenqualität zu verbessern? Hierbei helfen Data Governance-Prozesse und die Entwicklung geeigneter Strategien für ein ganzheitliches Datenmanagement. Zunächst gilt es aber die Kriterien für gute Daten zu definieren, die je nach Unternehmen unterschiedlich ausfallen können. Dazu zählen Aspekte wie Aktualität, Relevanz, Fehlerfreiheit und Konsistenz – hierbei sollten sich also Daten aus verschiedenen Quellen nicht widersprechen. Weiterhin ist es hilfreich zu untersuchen, an welchen Stellen sich Fehler in Stammdaten besonders häufig einschleichen. Denn auch hier gilt die bekannte Programmiererweisheit: Garbage in, Garbage out. Frei übersetzt: schlechte Datenquellen führen zu schlechten Ergebnissen.

In der Praxis finden sich Fehlerquellen über die gesamte Wertschöpfungskette des Datenmanagements hinweg. Dies können menschliche Eingabefehler bei der Datenerfassung sein, fehlerhafte Sensordaten oder unvollständige Datenimports bei automatisierten Prozessen. Aber auch verschiedene Formate von Daten können zu Fehlern führen, im einfachsten Fall bei der Verwendung des Datums in US-amerikanischer oder deutscher Schreibweise sowie bei Unklarheit darüber, ob das metrische oder angloamerikanische Maßsystem zum Einsatz kommt. Darüber hinaus führen auch organisatorische Mängel zu Datenfehlern, beispielsweise wenn nicht klar definiert ist, wer für welche Datensätze zuständig ist.

Auf dem Weg zu mehr Datenqualität lassen sich fünf Punkte festmachen, die dabei helfen, den Wert der eigenen Daten zu steigern.

1. Ziele klären

Alle am Projekt Beteiligten sollten sich über die Business-Ziele einigen, die mit einer Initiative für eine bessere Datenqualität erreicht werden sollen. Von Sales über Marketing bis zum Management hat jede Organisationseinheit unterschiedliche Erwartungen. Während Entscheider eher fundierte Analysen mit für sie relevanten und aktuellen Informationen benötigen, kann es für ein Vertriebsmitarbeiter entscheidend sein, dass Adressdaten korrekt und vollständig vorliegen.

2. Daten finden und katalogisieren

In vielen Organisationen liegen Daten in unterschiedlichen Formaten ab, von Papierakten und Excel-Tabellen über Adressdatenbanken bis zu unternehmensweit genutzten Business-Anwendungen. Eine wichtige Aufgabe besteht darin, diese Datenbestände zu lokalisieren und die dort vorhandenen Informationen zu katalogisieren. Erst wenn das Unternehmen weiß, welche Daten in welcher Aktualität und in welchem Format wo liegen, kann ein Prozess zur Verbesserung der Datenqualität geplant werden.

3. Harmonisierung der Daten

Basierend auf der initialen Bestandsaufnahme wird nun ein Abgleich mit dem zu erreichenden Ziel vorgenommen. Daraus können sich vielfältige Aufgaben ergeben, wie eine Standardisierung von Schreibweisen, Datenformaten und Datenstrukturen. Hierbei kommen unter anderem Werkzeuge für Data Preparation und zur Deduplizierung zum Einsatz, um einen harmonisierten Datenbestand zu erhalten, während Lösungen für das Data Profiling dabei helfen, eine Analyse und Bewertung der Datenqualität vorzunehmen.

4. Analyse, Auswertung und Aufbereitung

Wer seine Datenbestände zusammenführt und in einer Cloud in einem Data Lake oder Data Warehouse aufbereitet, kann dort sehr flexibel verschiedenste Aufgaben zur Datenaufbereitung durchführen. Beispielsweise bietet Talend seine Software-Lösungen für Datenintegration und Datenmanagement auch für den Einsatz in der Cloud. Wer Streaming-Daten verarbeiten muss, die von Sensoren aus einer Internet of Things-Umgebung stammen, hat die Möglichkeit, mit Cloud-Ressourcen sehr flexibel die eingehenden Daten auf statistische Abweichungen prüfen und kann so verfälschte Datenpakete aussortieren.

5. Kontinuierliche Prozesse etablieren

Das Sicherstellen der Datenqualität ist ein kontinuierlicher Prozess. Schließlich werden immer wieder neue Daten erhoben und in die eigenen Systeme integriert. Selbst wenn externe Datenquellen schon hochwertige Daten zur Weiterverarbeitung liefern, ist es dennoch notwendig, die eigenen Datenbestände immer wieder über ein Data Monitoring zu prüfen und zu validieren. Hierfür gibt es ganz unterschiedliche Lösungen, angefangen von Self-Service-Lösungen zur Datenbereinigung über regelbasierte Anwendungen zur Datentransformation bis hin zu selbstlernenden Software-Lösungen, die eigenständig Datenformate überwachen und statistische Anomalien erkennen und korrigieren. Algorithmen für Deep Learning bzw. künstliche Intelligenz sind heute schon in der Lage, viele Aufgaben rund um das Datenmanagement in Big Data-Szenarien zu übernehmen. Wichtig ist jedoch, dass Verantwortlichkeiten für das Datenmanagement benannt werden und entsprechend Prozesse zur Qualitätssicherung fest in den betrieblichen Abläufen verankert sind.

Fazit

Das Datenqualitätsmanagement ist eine Team-Aufgabe, die sich über alle Funktionsbereiche eines Unternehmens hinweg erstreckt. Daher ist es sinnvoll, auch den Mitarbeitern in den Fachbereichen Werkzeuge an die Hand zu geben, um im Self-Service die Datenqualität zu sichern. Hier bieten sich insbesondere Cloud-basierte Werkzeuge an, die schnell und unkompliziert in den Fachbereichen ausgerollt werden können. So ausgerüstet, gelingt es Unternehmen ihre Datenqualität schrittweise zu verbessern und den Wert ihrer Daten zu steigern. Dies führt zu zufriedenen Mitarbeitern und glücklichen Kunden. Und wer weiß, vielleicht liegt es künftig tatsächlich in der Hand von geschickt programmierten Algorithmen, dass wir über Facebook schnell und verlässlich unseren Partner fürs Leben finden.

* Otto Neuer ist Vice President Sales EMEA Central bei Talend.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*