11 dunkle Geheimnisse des Datenmanagements

Eine solide Strategie für das Datenmanagement kann sich in jedem Unternehmen auszahlen, das das Potenzial von Daten ausschöpfen möchte. Dennoch ist der Weg zu einer datenorientierten Entscheidungsfindung voller Herausforderungen und Rätsel. [...]

store-g361feec59_1280 — Foto: THAMYUANYUAN/Pixabay

Manche nennen Daten das neue Öl. Andere nennen sie das neue Gold. Philosophen und Ökonomen mögen sich über die Qualität der Metapher streiten, aber es besteht kein Zweifel daran, dass die Organisation und Analyse von Daten für jedes Unternehmen, das datenorientierte Entscheidungen treffen will, von entscheidender Bedeutung ist.

Und dafür ist eine solide Datenverwaltungsstrategie der Schlüssel. Datenmanagement umfasst Data Governance, Data Ops, Data Warehousing, Data Engineering, Data Analytics, Data Science und mehr und kann, wenn es richtig gemacht wird, Unternehmen in jeder Branche einen Wettbewerbsvorteil verschaffen.

Die gute Nachricht ist, dass viele Facetten des Datenmanagements bereits gut erforscht sind und auf soliden Prinzipien beruhen, die sich über Jahrzehnte entwickelt haben. Sie sind vielleicht nicht leicht anzuwenden oder einfach zu verstehen, aber dank der Arbeit von Wissenschaftlern und Mathematikern verfügen Unternehmen heute über eine Reihe von logistischen Rahmenbedingungen für die Analyse von Daten und die Erarbeitung von Schlussfolgerungen. Noch wichtiger ist, dass wir auch statistische Modelle haben, die die Grenzen unserer Analyse durch aussagekräftige Fehlerquoten abgrenzen.

Doch bei allem Nutzen, den das Studium der Datenwissenschaft und die verschiedenen Disziplinen, die ihr zugrunde liegen, mit sich gebracht haben, stehen wir manchmal immer noch vor einem Rätsel. Die Unternehmen stoßen oft an die Grenzen des Fachgebiets. Einige der Paradoxien beziehen sich auf die praktischen Herausforderungen beim Sammeln und Organisieren so vieler Daten. Andere sind philosophischer Natur und stellen unsere Fähigkeit auf die Probe, über abstrakte Eigenschaften nachzudenken. Und dann ist da noch die zunehmende Sorge um den Schutz der Privatsphäre, wenn schon so viele Daten gesammelt werden.

Im Folgenden finden Sie einige der vielen Geheimnisse, die das Datenmanagement zu einer solchen Herausforderung für viele Unternehmen machen.

Nicht strukturierte Daten sind schwer zu analysieren

Viele der Daten, die in den Archiven eines Unternehmens gespeichert sind, haben überhaupt keine Struktur. Einer meiner Freunde möchte eine KI einsetzen, um die Textnotizen der Callcenter-Mitarbeiter seiner Bank zu durchsuchen. Diese Datensätze könnten Erkenntnisse enthalten, die zur Verbesserung der Kreditvergabe und der Dienstleistungen der Bank beitragen könnten. Aber die Notizen wurden von Hunderten von verschiedenen Personen gemacht, die unterschiedliche Vorstellungen davon hatten, was sie zu einem bestimmten Anruf aufschreiben sollten.

Außerdem haben die Mitarbeiter unterschiedliche Schreibstile und -fähigkeiten. Einige haben fast gar nichts geschrieben. Andere schreiben zu viele Informationen über die jeweiligen Anrufe auf. Ein Text an sich hat nicht viel Struktur, aber wenn man einen Stapel von Texten hat, die von Hunderten oder Tausenden von Mitarbeitern über Dutzende von Jahren geschrieben wurden, dann ist die vorhandene Struktur noch schwächer.

Selbst bei strukturierten Daten bleibt es oft unstrukturiert

Gute Wissenschaftler und Datenbankadministratoren steuern Datenbanken, indem sie den Typ und die Struktur der einzelnen Felder festlegen. Manchmal beschränken sie im Namen einer noch besseren Struktur die Werte in einem bestimmten Feld auf Ganzzahlen in bestimmten Bereichen oder auf vordefinierte Auswahlmöglichkeiten.

Und selbst dann finden die Personen, die die Formulare ausfüllen, die in der Datenbank gespeichert werden, Wege, um Fehler und Unregelmäßigkeiten hinzuzufügen. Manchmal werden Felder leer gelassen. Andere setzen einen Bindestrich oder die Initialen „n.a.“ ein, wenn sie meinen, dass eine Frage nicht zutrifft. Manche Leute schreiben ihren Namen sogar von Jahr zu Jahr, von Tag zu Tag oder sogar von Zeile zu Zeile auf demselben Formular anders.

Gute Entwickler können einige davon durch Validierung auffangen. Gute Datenwissenschaftler können auch einige dieser Unsicherheiten durch Bereinigung verringern. Aber es ist immer noch ärgerlich, dass selbst die am besten strukturierten Tabellen fragwürdige Einträge haben – und dass diese fragwürdigen Einträge Unbekanntheiten und sogar Fehler in die Analyse einbringen können.

Datenschemata sind entweder zu streng oder zu locker

Egal, wie sehr sich die Datenteams bemühen, Schemabeschränkungen zu formulieren, die resultierenden Schemata zur Definition der Werte in den verschiedenen Datenfeldern sind entweder zu streng oder zu locker. Wenn das Datenteam strenge Einschränkungen hinzufügt, beschweren sich die Benutzer, dass ihre Antworten nicht in der engen Liste der akzeptablen Werte enthalten sind. Ist das Schema zu kulant, können die Benutzer seltsame Werte mit wenig Konsistenz hinzufügen. Es ist fast unmöglich, das Schema genau richtig abzustimmen.

Datenschutzgesetze sind extrem streng

Die Gesetze zum Schutz der Privatsphäre und zum Datenschutz sind streng und werden immer strenger. Durch Vorschriften wie DSGVO, HIPPA und ein Dutzend weiterer kann es sehr schwierig sein, Daten zu sammeln, aber noch gefährlicher ist es, sie herumliegen zu lassen und darauf zu warten, dass ein Hacker einbricht. In vielen Fällen ist es einfacher, mehr Geld für Anwälte als für Programmierer oder Datenwissenschaftler auszugeben. Diese Kopfschmerzen sind der Grund, warum einige Unternehmen ihre Daten einfach entsorgen, sobald sie sie loswerden können.

Die Kosten für Datenbereinigung sind enorm

Viele Datenwissenschaftler werden bestätigen, dass 90 % der Arbeit darin besteht, die Daten zu sammeln, sie in eine konsistente Form zu bringen und mit den endlosen Löchern oder Fehlern umzugehen. Die Person, die über die Daten verfügt, wird immer sagen: „Es liegt alles in einer CSV-Datei vor und ist einsatzbereit.“ Aber sie erwähnen nicht die leeren Felder oder die Falschangaben. Man kann leicht zehnmal so viel Zeit damit verbringen, Daten für die Verwendung in einem Data-Science-Projekt zu bereinigen, als die Routine in R oder Python zu starten, um die statistische Analyse tatsächlich durchzuführen.

Nutzer sind zunehmend misstrauisch gegenüber dem Umgang mit ihren Daten

Endnutzer und Kunden werden immer misstrauischer gegenüber den Datenverwaltungspraktiken eines Unternehmens, und einige KI-Algorithmen und ihre Verwendung verstärken die Angst nur noch, so dass viele Menschen sehr verunsichert darüber sind, was mit den Daten geschieht, die jede ihrer Bewegungen erfassen. Diese Ängste treiben die Gesetzgebung voran und bringen Unternehmen und sogar wohlmeinende Datenwissenschaftler oft in die Bredouille der Öffentlichkeit.

Und nicht nur das: Die Datenerfassung wird absichtlich mit falschen Werten oder falschen Antworten belastet. Manchmal besteht die Hälfte der Arbeit darin, sich mit böswilligen Partnern und Kunden auseinanderzusetzen.

Die Integration externer Daten kann von Vorteil sein – und zum Fiasko werden

Es ist eine Sache, wenn ein Unternehmen das Eigentum an den gesammelten Daten übernimmt. Die IT-Abteilung und die Datenwissenschaftler haben darüber die Kontrolle. Aber immer mehr aggressive Unternehmen finden heraus, wie sie ihre eigenen Informationen mit den Daten Dritter und den riesigen Meeren von personalisierten Informationen im Internet integrieren können.

Einige Tools versprechen ganz offen, Daten über jeden einzelnen Kunden einzusaugen, um personalisierte Dossiers über jeden Kauf zu erstellen. Ja, sie benutzen dieselben Worte wie die Spionageagenturen, die hinter Terroristen her sind, um Ihre Fast-Food-Einkäufe und Kreditwürdigkeit zu verfolgen. Ist es da verwunderlich, dass die Menschen in Angst und Panik verfallen?

Aufsichtsbehörden greifen bei der Daten-Nutzung hart durch

In einem aktuellen Beispiel aus Kanada [engl.] untersuchte die Regierung, wie einige Donut-Läden Kunden verfolgten, die auch bei der Konkurrenz einkauften. In einer kürzlich veröffentlichten Pressemitteilung hieß es:

„Die Untersuchung ergab, dass der Vertrag von Tim Hortons mit einem amerikanischen Drittanbieter von Ortungsdiensten eine so vage und freizügige Formulierung enthielt, dass es dem Unternehmen erlaubt gewesen wäre, „de-identifizierte“ Ortungsdaten für eigene Zwecke zu verkaufen“. Und wozu? Um mehr Donuts zu verkaufen? Aufsichtsbehörden werden immer aufmerksamer, wenn es um persönliche Daten geht.

Ihr Datenschema lohnt sich möglicherweise nicht

Wir stellen uns vor, dass ein genialer Algorithmus alles effizienter und rentabler machen könnte. Und manchmal ist ein solcher Algorithmus tatsächlich möglich, aber der Preis kann auch zu hoch sein. So stellen die Verbraucher – und auch die Unternehmen – zunehmend den Wert eines gezielten Marketings in Frage, das auf ausgeklügelten Datenverwaltungssystemen beruht. Einige verweisen darauf, dass wir oft Werbung für etwas sehen, das wir bereits gekauft haben, weil die Ad-Tracker noch nicht herausgefunden haben, dass wir nicht mehr interessiert sind.

Dasselbe Schicksal erwartet oft auch andere clevere Systeme. Manchmal wird durch eine strenge Datenanalyse die Fabrik mit der schlechtesten Leistung ermittelt, aber das spielt keine Rolle, weil das Unternehmen einen 30-jährigen Mietvertrag für das Gebäude abgeschlossen hat. Die Unternehmen müssen sich darauf einstellen, dass ihre genialen datenwissenschaftlichen Erkenntnisse möglicherweise zu einer Antwort führen, die nicht akzeptabel ist.

Letzten Endes sind datenbezogene Entscheidungen oft reine Ansichtssache

Zahlen können sehr präzise sein, aber oft kommt es darauf an, wie Menschen sie interpretieren. Nach all der Datenanalyse und KI-Magie muss bei den meisten Algorithmen eine Entscheidung darüber getroffen werden, ob ein Wert über oder unter einem Schwellenwert liegt. Manchmal wollen Wissenschaftler einen p-Wert von weniger als 0,05. Vielleicht möchte ein Polizist Strafzettel für Autos ausstellen, die 20 % über dem Tempolimit liegen.

Bei diesen Schwellenwerten handelt es sich oft um willkürliche Werte. Trotz aller Wissenschaft und Mathematik, die auf Daten angewandt werden können, gibt es bei vielen datenorientierten Prozessen mehr Grauzonen, als wir glauben möchten, so dass Entscheidungen trotz aller Ressourcen, die ein Unternehmen in seine Datenverwaltungspraktiken gesteckt haben mag, dem Bauchgefühl überlassen bleiben.

Die Kosten für das Speichern von Daten wachsen kontinuierlich

Ja, die Festplatten werden immer dicker und der Preis pro Terabyte sinkt weiter, aber unsere Programmierer sammeln die Bits schneller, als die Preise fallen können. Die Geräte aus dem Internet der Dinge (IoT) laden immer mehr Daten hoch, und die Nutzer erwarten, dass sie ewig in einer reichen Sammlung dieser Bytes stöbern können. In der Zwischenzeit fordern Compliance-Beauftragte und Aufsichtsbehörden immer mehr Daten für künftige Audits.

Es wäre eine Sache, wenn sich jemand einige der Bits tatsächlich ansehen würde, aber wir haben nur begrenzt Zeit zur Verfügung. Der Prozentsatz der Daten, auf die tatsächlich noch einmal zugegriffen wird, sinkt immer weiter ab. Der Preis für die Speicherung der immer größer werdenden Datenmengen steigt jedoch immer weiter an.

*Peter Wayner schreibt unter anderem für unsere US-Schwesterpublikation InfoWorld.com und ist Autor verschiedener Bücher – unter anderem zu den Themen Open Source Software, autonomes Fahren und digitale Transaktionen.