Warum datengesteuerte Unternehmen einen Datenkatalog brauchen

Unternehmen brauchen bessere Tools, um den Umgang mit Datenquellen zu erlernen und mit ihnen zusammenarbeiten zu können. Datenkataloge mit bahnbrechenden maschinellen Lernfunktionen können Ihnen dabei helfen. [...]

statistic-1820320_1280 — Datenverwaltung wird für datengetriebene Unternehmen immer wichtiger. Isaac Sacolick erklärt, warum soetwas wie ein Datenkatalog nützlich sein kann (c) Pixabay.com

Relationale Datenbanken, Datenseen und NoSQL-Datenspeicher sind stark im Einsetzen, Aktualisieren, Abfragen, Suchen und Verarbeiten von Daten. Aber der ironische Aspekt der Arbeit mit Datenmanagement-Plattformen ist, dass sie normalerweise keine robusten Tools oder Benutzeroberflächen zur Verfügung stellen, um das, was sich in ihnen befindet, zu teilen. Sie sind eher wie Datensilos. Sie wissen, dass sich darin wertvolle Daten befinden, aber Sie haben keine einfache Möglichkeit, sie von außen zu beurteilen.

Die Herausforderung im Unternehmen besteht darin, mit einer Vielzahl von Datendepots umzugehen: mehrere Unternehmensdatenbanken, kleinere Datenspeicher, Rechenzentren, Clouds, Anwendungen, BI-Tools, APIs, Tabellenkalkulationen und offene Datenquellen.

Sicher, Sie können die Metadaten einer relationalen Datenbank nach einer Liste von Tabellen, Stored Procedures, Indizes und anderen Datenbankobjekten abfragen, um ein Verzeichnis zu erhalten. Aber das ist ein zeitaufwändiger Ansatz, der technisches Fachwissen erfordert und nur eine grundlegende Auflistung aus einer einzigen Datenquelle erzeugt.

Sie können Tools verwenden, die ein Reverse-Engineering von Datenmodellen durchführen oder Möglichkeiten zur Navigation in den Metadaten bieten. Diese Tools sind jedoch eher für Technologen konzipiert und werden hauptsächlich für die Prüfung, Dokumentation oder Analyse von Datenbanken verwendet.

Mit anderen Worten: Diese Ansätze zur Abfrage der Datenbankinhalte und die Tools zum Extrahieren der Metadaten sind für die heutigen datengesteuerten Geschäftsanforderungen aus mehreren Gründen unzureichend:

Die Technologien erfordern zu viel technisches Fachwissen und werden wahrscheinlich nicht von weniger technisch versierten Endanwendern genutzt.
Die Methoden sind zu manuell für Unternehmen mit mehreren großen Datenbeständen, unterschiedlichen Datenbanktechnologien und dem Betrieb hybrider Clouds.
Die Ansätze sind für Datenwissenschaftler oder Bürgerdatenwissenschaftler, die mit primären und abgeleiteten Datensätzen kollaborativ arbeiten oder maschinelle Lernexperimente durchführen wollen, nicht besonders nützlich.
Die Strategie der Prüfung von Datenbank-Metadaten macht es Datenmanagementteams nicht leicht, eine proaktive Data Governance einzuführen.

Der einzige Quell der Wahrheit

Datenkataloge gibt es schon seit einiger Zeit und sie sind heute noch strategischer, da Unternehmen große Datenplattformen skalieren, in hybriden Clouds operieren, in datenwissenschaftliche und maschinelle Lernprogramme investieren und datengesteuertes Betriebsverhalten fördern.

Das erste Konzept, das man im Zusammenhang mit Datenkatalogen verstehen muss, ist, dass sie Tools für das gesamte Unternehmen sind, um Datenquellen zu erlernen und mit ihnen zusammenzuarbeiten. Sie sind wichtig für Unternehmen, die versuchen, datengetriebener zu sein, bei denen Datenwissenschaftler mit maschinellem Lernen experimentieren und andere, die Analysen in kundenorientierte Anwendungen einbetten.

Datenbankingenieure, Softwareentwickler und andere Technologen übernehmen die Verantwortung für die Integration von Datenkatalogen mit den primären Unternehmensdatenquellen. Sie nutzen und ergänzen den Datenkatalog, insbesondere bei der Erstellung oder Aktualisierung von Datenbanken.

In dieser Hinsicht sind Datenkataloge, die eine Schnittstelle zu den meisten Datenbeständen eines Unternehmens bilden, ein einziger Quell der Wahrheit. Sie helfen bei der Antwort auf die Frage, welche Daten vorhanden sind, wie man die besten Datenquellen findet, wie man Daten schützt und wer über das entsprechende Fachwissen verfügt. Der Datenkatalog enthält Tools zum Auffinden von Datenquellen, zum Erfassen von Metadaten über diese Quellen, zum Durchsuchen dieser Quellen und zum Bereitstellen einiger Verwaltungsfunktionen für Metadaten.

Viele Datenkataloge gehen über den Begriff des strukturierten Verzeichnisses hinaus. Datenkataloge enthalten oft Beziehungen zwischen Datenquellen, Entitäten und Objekten. Die meisten Kataloge verfolgen verschiedene Klassen von Metadaten, insbesondere zu den Themen Privatsphäre, Datenschutz und Sicherheit. Sie erfassen und teilen Informationen darüber, wie verschiedene Personen, Abteilungen und Anwendungen Datenquellen nutzen. Die meisten Datenkataloge enthalten auch Tools zur Definition von Datenverzeichnissen; einige enthalten Tools zur Erstellung von Datenprofilen, zur Bereinigung von Daten und zur Durchführung anderer Datenverwaltungsfunktionen. Spezielle Datenkataloge ermöglichen auch die Stammdatenverwaltung und Funktionen zur Verwaltung von Datenabstammungen oder stellen eine Schnittstelle zu diesen dar.

Datenkatalog-Produkte und -Dienstleistungen

Der Markt ist voll von Datenkatalog-Tools und -Plattformen. Einige Produkte sind aus anderen Infrastruktur- und Unternehmensdatenmanagement-Funktionen hervorgegangen. Andere stellen eine neue Generation von Funktionen dar und konzentrieren sich auf Benutzerfreundlichkeit, Zusammenarbeit und Unterscheidungsmerkmale im Bereich des maschinellen Lernens. Natürlich hängt die Wahl von der Größe, der Benutzererfahrung, der Data Science-Strategie, der Datenarchitektur und anderen Anforderungen des Unternehmens ab.

Hier ist ein Beispiel für Datenkatalog-Produkte:

Azure Data Catalog und AWS Glue sind Datenkatalogisierungsdienste, die in öffentliche Cloud-Plattformen integriert sind.
Viele Datenintegrationsplattformen verfügen über Datenkatalogisierungsfunktionen, darunter Informatica Enterprise Data Catalog, Talend Data Catalog, SAP Data Hub und IBM Infosphere Information Governance Catalog.
Einige Datenkataloge sind für große Datenplattformen und hybride Clouds konzipiert, wie z.B. Cloudera Data Platform und InfoWorks DataFoundry, das Datenoperationen und Orchestrierung unterstützt.
Es gibt eigenständige Plattformen mit maschinellen Lernfunktionen, einschließlich Unifi Data Catalog, Alation Data Catalog, Collibra Catalog, Waterline Data und IBM Watson Knowledge Catalog.
Stammdatenmanagement-Tools wie Stibo Systems und Reltio und Kundendatenplattformen wie Arm Treasure Data können ebenfalls als Datenkataloge fungieren.

Maschinelles Lernen treibt Erkenntnisse und Experimente an

Datenkataloge, die die Datenerkennung automatisieren, die Suche im Repository ermöglichen und Kollaborationstools bereitstellen, sind die Basis. Fortgeschrittene Datenkataloge umfassen Funktionen für maschinelles Lernen, Verarbeitung natürlicher Sprache und Low-Code-Implementierungen.

Je nach Plattform nehmen die Fähigkeiten des maschinellen Lernens verschiedene Formen an. So verfügt Unifi beispielsweise über eine integrierte Empfehlungsmaschine, die überprüft, wie Menschen primäre und abgeleitete Datensätze verwenden, ihnen beitreten und sie kennzeichnen. Es erfasst Auslastungsmetriken und nutzt maschinelles Lernen, um Empfehlungen zu geben, wenn andere Endbenutzer ähnliche Datensätze und Muster abfragen. Unifi verwendet außerdem Algorithmen des maschinellen Lernens, um Daten zu profilieren, sensible, persönlich identifizierbare Informationen zu ermitteln und Datenquellen zu kennzeichnen.

Collibra nutzt maschinelles Lernen, um Datenverwalter bei der Klassifizierung von Daten zu unterstützen. Die automatische Datenklassifizierung analysiert neue Datensätze und gleicht 40 vordefinierte Klassifizierungen ab, wie z.B. Adressen, Finanzinformationen und Produktkennungen.

Waterline Data verfügt über eine patentierte Fingerprinting-Technologie, die die Erkennung, Klassifizierung und Verwaltung von Unternehmensdaten automatisiert. Einer der Schwerpunkte liegt auf der Identifizierung und Kennzeichnung von sensiblen Daten. Die Firma behauptet, die für die Kennzeichnung benötigte Zeit um 80 Prozent zu reduzieren.

Verschiedene Plattformen haben unterschiedliche Strategien und technische Möglichkeiten rund um die Datenverarbeitung. Einige funktionieren nur auf der Ebene von Datenkatalogen und Metadaten, während andere über erweiterte Datenvorbereitungs-, Integrations- und Bereinigungsfunktionen sowie andere Datenverarbeitungsfunktionen verfügen.

InfoWorks DataFoundry ist ein System zur Datenoperation und -orchestrierung in Unternehmen, das direkt in die Algorithmen des maschinellen Lernens integriert ist. Es verfügt über eine visuelle Programmierschnittstelle mit geringem Code, die es den Endbenutzern ermöglicht, Daten mit Algorithmen für maschinelles Lernen wie k-Mittel-Clustering und zufällige Waldklassifizierung zu verbinden.

Wir befinden uns noch in der Anfangsphase proaktiver Plattformen wie Datenkataloge, die Governance- und Betriebsfunktionen sowie Erkundungstools für Unternehmen mit wachsenden Datenbeständen bieten. Wenn Unternehmen mehr geschäftlichen Nutzen aus Daten und Analysen ziehen, wird es einen größeren Bedarf an der Skalierung und Verwaltung von Datenpraktiken geben. Maschinelle Lernfunktionen werden dann wahrscheinlich ein Bereich sein, in dem verschiedene Datenkatalogplattformen miteinander konkurrieren.

*Isaac Sacolick ist der Verfasser von „Driving Digital: The Leader’s Guide to Business Transformation through Technology“, der viele Praktiken wie z.B. Agilität, Entwicklung und Datenwissenschaft behandelt, die für erfolgreiche digitale Transformationsprogramme entscheidend sind. Sacolick ist ein anerkannter Top Social CIO, ein langjähriger Blogger bei Social, Agile and Transformation und CIO.com und Präsident von StarCIO.