Warum Sie eine Datenintegrationsplattform brauchen

Da jedes Unternehmen mehrere Datenquellen generiert und darauf zugreift, stellt eine Integrationsplattform sicher, dass jedes Team über die Daten verfügt, die es braucht, um das Unternehmen voranzubringen. [...]

Für jeden, der auch nur über grundlegende Programmierkenntnisse verfügt, besteht die gängigste Methode, Daten von der Quelle zum Ziel zu bewegen, darin, ein kurzes Skript zu entwickeln (c) pixabay.com

Daten befinden sich nicht nur in einer Datenbank, einem Dateisystem, einem Data Lake oder einem Repository.

Daten, die in einem System of Record erstellt werden, müssen mehrere Geschäftsanforderungen erfüllen, mit anderen Datenquellen integriert und dann für Analysen, kundenorientierte Anwendungen oder interne Workflows verwendet werden. Beispiele hierfür sind:

Daten aus einer E-Commerce-Anwendung werden mit Benutzeranalysen, Kundendaten in einem Customer-Relationship-Management-System (CRM) oder anderen Stammdatenquellen integriert, um Kundensegmente zu erstellen und Marketingbotschaften anzupassen.
Sensordaten aus dem Internet der Dinge (IoT) werden mit Betriebs- und Finanzdatenspeichern verknüpft und zur Steuerung des Durchsatzes und zur Berichterstattung über die Qualität eines Fertigungsprozesses verwendet.
Eine Workflow-Anwendung für Mitarbeiter verbindet Daten und Tools über mehrere Software-as-a-Service (SaaS)-Plattformen und interne Datenquellen in einer einfach zu bedienenden mobilen Oberfläche.

Viele Unternehmen haben auch Datenwissenschaftler, Datenanalysten und Innovationsteams, die zunehmend interne und externe Datenquellen integrieren müssen. Datenwissenschaftler, die Vorhersagemodelle entwickeln, laden oft mehrere externe Datenquellen wie Ökonometrie, Wetterdaten, Volkszählungen und andere öffentliche Daten und mischen diese dann mit internen Quellen. Innovationsteams, die mit künstlicher Intelligenz experimentieren, müssen große und oft komplexe Datenquellen zusammenführen, um ihre Algorithmen zu trainieren und zu testen. Und Geschäfts- und Datenanalysten, die früher ihre Analysen in Tabellenkalkulationen durchgeführt haben, benötigen jetzt möglicherweise anspruchsvollere Tools zum Laden, Zusammenführen und Verarbeiten mehrerer Datenfeeds.

Programmierung und Skripterstellung von Datenintegrationen

Für jeden, der auch nur über grundlegende Programmierkenntnisse verfügt, besteht die gängigste Methode, Daten von der Quelle zum Ziel zu bewegen, darin, ein kurzes Skript zu entwickeln. Der Code zieht die Daten aus einer oder mehreren Quellen, führt alle notwendigen Datenvalidierungen und -manipulationen durch und schiebt sie an ein oder mehrere Ziele.

Entwickler können Punkt-zu-Punkt-Datenintegrationen mit vielen Ansätzen codieren, z. B.:

Eine in der Datenbank gespeicherte Prozedur, die Datenänderungen an andere Datenbanksysteme weiterleitet
Ein Skript, das als geplanter Job oder als Dienst ausgeführt wird
Ein Webhook, der einen Dienst benachrichtigt, wenn der Endbenutzer einer Anwendung Daten ändert
Ein Microservice, der Daten zwischen Systemen verbindet
Ein kleines datenverarbeitendes Codeschnipsel, das in einer serverlosen Architektur eingesetzt wird

Diese Codierungsverfahren können Daten aus mehreren Quellen ziehen, zusammenführen, filtern, bereinigen, validieren und transformieren, bevor sie an die Zieldatenquellen gesendet werden.

Skripting mag ein schneller und einfacher Ansatz sein, um Daten zu bewegen, aber es wird nicht als professionelle Datenverarbeitungsmethode angesehen. Ein Datenverarbeitungsskript der Produktionsklasse muss die für die Verarbeitung und den Transport von Daten erforderlichen Schritte automatisieren und verschiedene betriebliche Anforderungen erfüllen.

Zum Beispiel sollten Integrationen, die große Datenmengen verarbeiten, multithreadingfähig sein, und Jobs gegen viele Datenquellen erfordern eine robuste Datenvalidierung und Ausnahmebehandlung. Wenn umfangreiche Geschäftslogik und Datentransformationen erforderlich sind, sollten die Entwickler die Schritte protokollieren oder andere Maßnahmen ergreifen, um sicherzustellen, dass die Integration beobachtbar ist.

Die Skriptprogrammierung zur Unterstützung dieser betrieblichen Anforderungen ist nicht trivial. Sie erfordert, dass der Entwickler Dinge vorhersieht, die bei der Datenintegration schief gehen können, und entsprechend programmiert. Darüber hinaus ist die Entwicklung benutzerdefinierter Skripte bei der Arbeit mit vielen experimentellen Datenquellen möglicherweise nicht kosteneffektiv. Schließlich sind Skripte zur Datenintegration oft schwierig zu übertragen und von mehreren Entwicklern zu pflegen.

Aus diesen Gründen schauen Unternehmen mit vielen Datenintegrationsanforderungen oft über die Programmierung und Skripterstellung von Datenflüssen hinaus.

Was ist Data Lineage?

Merkmale von robusten Datenintegrationsplattformen

Datenintegrationsplattformen ermöglichen das Entwickeln, Testen, Ausführen und Aktualisieren mehrerer Datenpipelines. Unternehmen wählen sie aus, weil sie erkennen, dass Datenintegration eine Plattform und eine Fähigkeit mit spezifischen Entwicklungsfähigkeiten, Testanforderungen und betrieblichen Service-Level-Erwartungen ist. Wenn Architekten, IT-Leiter, CIOs und Chief Data Officers über die Skalierung von Datenintegrationskompetenzen sprechen, erkennen sie, dass die gesuchten Fähigkeiten über das hinausgehen, was Softwareentwickler mit benutzerdefiniertem Code leicht erreichen können.

Hier ist ein Überblick darüber, was Sie wahrscheinlich in einer Datenintegrationsplattform finden werden.

Ein Tool, das auf die Entwicklung und Verbesserung von Integrationen spezialisiert ist; oft ermöglichen Low-Code-Visualisierungstools das Drag-and-Drop von Verarbeitungselementen, deren Konfiguration und Verbindung zu Datenpipelines.
Sofort einsatzbereite Konnektoren, die eine schnelle Integration mit gängigen Unternehmenssystemen, SaaS-Plattformen, Datenbanken, Data Lakes, Big Data-Plattformen, APIs und Cloud-Datendiensten ermöglichen. Nehmen wir zum Beispiel an, Sie möchten eine Verbindung zu Salesforce-Daten herstellen, Konten und Kontakte erfassen und die Daten an den AWS Relational Database Service übergeben. In diesem Fall ist es wahrscheinlich, dass die Integrationsplattform diese Konnektoren bereits vordefiniert hat und bereit für die Verwendung in einer Datenpipeline ist.
Die Fähigkeit, mehrere Datenstrukturen und -formate über relationale Datenstrukturen und Dateitypen hinaus zu verarbeiten. Datenintegrationsplattformen unterstützen in der Regel JSON, XML, Parquet, Avro, ORC und eventuell auch branchenspezifische Formate wie NACHA im Finanzdienstleistungsbereich, HIPAA EDI im Gesundheitswesen und ACORD XML im Versicherungswesen.
Erweiterte Datenqualitäts- und Stammdatenverwaltungsfunktionen können Funktionen der Datenintegrationsplattform sein, oder es kann sich um Add-On-Produkte handeln, die Entwickler über Datenpipelines anschließen können.
Einige Datenintegrationsplattformen zielen auf Data-Science- und Machine-Learning-Funktionen ab und enthalten Elemente zur Analyseverarbeitung und Schnittstellen zu Machine-Learning-Modellen. Einige Plattformen bieten auch Datenvorbereitungstools, damit Datenwissenschaftler und Analysten Prototypen erstellen und Integrationen entwickeln können.
Devops-Funktionen, wie z. B. Unterstützung für Versionskontrolle, Automatisierung von Datenpipeline-Bereitstellungen, Auf- und Abbau von Testumgebungen, Verarbeitung von Daten in Staging-Umgebungen, Skalierung der Produktionspipeline-Infrastruktur und Ermöglichung von Multithreading-Ausführung.
Zu den verschiedenen Hosting-Optionen gehören Rechenzentrum, öffentliche Cloud und SaaS.
Dataops-Funktionen können Testdatensätze verwalten, die Datenabfolge erfassen, die Wiederverwendung von Pipelines ermöglichen und Tests automatisieren.
Zur Laufzeit können Datenintegrationsplattformen Datenpipelines mit verschiedenen Methoden auslösen, z. B. mit geplanten Jobs, ereignisgesteuerten Triggern oder Echtzeit-Streaming-Modalitäten.
Beobachtbare Produktionsdaten-Pipelines bieten Berichte über die Leistung, warnen bei Problemen mit der Datenquelle und verfügen über Tools zur Diagnose von Datenverarbeitungsproblemen.
Verschiedene Tools unterstützen Sicherheits-, Compliance- und Data-Governance-Anforderungen, wie z. B. Verschlüsselungsformate, Auditing-Funktionen, Datenmaskierung, Zugriffsmanagement und Integrationen mit Datenkatalogen.
Datenintegrationspipelines laufen nicht isoliert; die besten Plattformen lassen sich in das IT-Service-Management, die agile Entwicklung und andere IT-Plattformen integrieren.

Wie man eine Datenintegrationsplattform auswählt

Die Liste der Datenintegrationsfunktionen und -anforderungen kann entmutigend sein, wenn man die Arten von Plattformen, die Anzahl der Anbieter, die in jedem Bereich konkurrieren, und die Analystenterminologie bedenkt, die zur Kategorisierung der Optionen verwendet wird. Wie wählt man also die richtige Mischung von Tools für die heutigen und zukünftigen Datenintegrationsanforderungen aus?

Die einfache Antwort ist, dass es eine gewisse Disziplin erfordert. Beginnen Sie mit einer Bestandsaufnahme der bereits genutzten Integrationen, katalogisieren Sie die Anwendungsfälle und führen Sie ein Reverse Engineering der Anforderungen an Datenquellen, Formate, Transformationen, Zielpunkte und Auslösebedingungen durch. Qualifizieren Sie dann die Betriebsanforderungen, einschließlich der Service-Level-Ziele, Sicherheitsanforderungen, Compliance-Anforderungen und Datenvalidierungsanforderungen. Ziehen Sie schließlich einige neue oder neu entstehende Anwendungsfälle von hoher geschäftlicher Bedeutung in Betracht, deren Anforderungen sich von den bestehenden Datenintegrationen unterscheiden.

Mit dieser Due-Diligence-Prüfung in der Hand finden Sie wahrscheinlich genügend Gründe, warum Do-it-yourself-Integrationen minderwertige Lösungen sind, und einige Hinweise, worauf Sie bei der Prüfung von Datenintegrationsplattformen achten sollten.

*Isaac Sacolick ist der Autor des Amazon-Bestsellers Driving Digital: The Leader’s Guide to Business Transformation through Technology, der viele Praktiken wie agile Planung, Devops und Data Science behandelt, die für erfolgreiche digitale Transformationsprogramme entscheidend sind. Sacolick ist ein anerkannter Top-Social-CIO und Influencer für digitale Transformation. Er hat mehr als 650 Artikel auf InfoWorld.com, CIO.com, seinem Blog Social, Agile, and Transformation und anderen Seiten veröffentlicht.