So wählen Sie die geeignete Datenanalyse-Plattform

Ein kurzer Leitfaden über den Analyse-Lebenszyklus, das wachsende Angebot an Tools und Technologien und die Auswahl der richtigen Datenplattform für Ihre Bedürfnisse. [...]

gui-2311261_1280 — Der Stellenwert von Daten und Datenanalyse wird auch in Zukunft immer weiter steigen. Deshalb ist es sinnvoll, die richtigen Tools für Ihren Bedarf zu kennen (c) pixabay.com

Unabhängig davon, ob Sie Verantwortlichkeiten in der Software-Entwicklung, in der Entwicklung, in Systemen, Clouds, Testautomatisierung, Standort-Zuverlässigkeit, bei der Leitung von Scrum-Teams, infosec oder in anderen Bereichen der Informationstechnologie haben, Sie werden immer mehr Gelegenheiten und Erfordernisse haben, mit Daten, Analysen und maschinellem Lernen zu arbeiten.

Ihr Zugang zu Analysen kann durch IT-Daten erfolgen, z. B. durch die Entwicklung von Metriken und Erkenntnissen aus agilen, Devops oder Website-Metriken. Es gibt keine bessere Art und Weise, die grundlegenden Fähigkeiten und Tools im Zusammenhang mit Daten, Analysen und maschinellem Lernen zu erlernen, als sie auf Daten anzuwenden, die Sie kennen und die Sie nach Erkenntnissen durchsuchen können, um entsprechende Maßnahmen zu ergreifen.

Die Dinge werden etwas komplexer, sobald Sie aus der Welt der IT-Daten ausbrechen und Dienstleistungen für Teams von Datenwissenschaftlern, Bürgerdatenwissenschaftlern und anderen Geschäftsanalytikern anbieten, die Datenvisualisierungen, Analysen und maschinelles Lernen einsetzen.

Zunächst müssen Daten geladen und bereinigt werden. Dann werden Sie – je nach Volumen, Vielfalt und Geschwindigkeit der Daten – wahrscheinlich auf mehrere Back-End-Datenbanken und Cloud-Datentechnologien stoßen. Und schließlich hat sich in den letzten Jahren das, was früher die Wahl zwischen Business Intelligence- und Datenvisualisierungstools war, zu einer komplexen Matrix von Analyse- und maschinellen Lernplattformen für den gesamten Lebenszyklus entwickelt.

Die Bedeutung der Analytik und des maschinellen Lernens steigert die Verantwortung der IT in mehreren Bereichen. Zum Beispiel:

Die IT stellt häufig Dienste rund um alle Datenintegrationen, Back-End-Datenbanken und Analyseplattformen zur Verfügung.
Devops-Teams setzen die Dateninfrastruktur häufig ein und skalieren sie, um das Experimentieren mit maschinellen Lernmodellen zu ermöglichen und dann die Verarbeitung der Produktionsdaten zu unterstützen.
Netzwerkbetriebsteams stellen sichere Verbindungen zwischen SaaS-Analysetools, Multi-Clouds und Rechenzentren her.
IT-Servicemanagement-Teams reagieren auf Daten- und Analyseservice-Anfragen und -Vorfälle.
Infosec überwacht die Verwaltung und Implementierung der Datensicherheit.
Entwickler integrieren Analyse- und maschinelle Lernmodelle in Anwendungen.

Angesichts der explosionsartigen Zunahme von Analysen, Cloud-Datenplattformen und maschinellen Lernfunktionen ist hier ein Leitfaden zum besseren Verständnis des Analyse-Lebenszyklus, von der Datenintegration und -bereinigung über Dataops und Modelops bis hin zu den Datenbanken, Datenplattformen und Analyseangeboten selbst.

Analytik beginnt mit Datenintegration und Datenbereinigung

Bevor Analysten, Bürgerdatenwissenschaftler oder datenwissenschaftliche Teams Analysen durchführen können, müssen ihnen die erforderlichen Datenquellen in ihren Datenvisualisierungs- und Analyseplattformen zugänglich sein.

Zu Beginn kann es geschäftliche Anforderungen geben, Daten aus mehreren Unternehmenssystemen zu integrieren, Daten aus SaaS-Anwendungen zu extrahieren oder Daten von IoT-Sensoren und anderen Echtzeit-Datenquellen zu streamen.

Dies alles sind die Schritte zum Sammeln, Laden und Integrieren von Daten für die Analyse und das maschinelle Lernen. Je nach Komplexität der Daten und Datenqualitätsfragen gibt es Möglichkeiten, sich an Dataops, Datenkatalogisierung, Stammdatenverwaltung und anderen Data-Governance-Initiativen zu beteiligen.

Wir alle kennen den Ausdruck „Garbage in, Garbage out“. Analysten müssen über die Qualität ihrer Daten besorgt sein, und Datenwissenschaftler müssen über Verzerrungen in ihren maschinellen Lernmodellen besorgt sein. Auch die Rechtzeitigkeit der Integration neuer Daten ist für Unternehmen, die datengesteuert in Echtzeit arbeiten wollen, von entscheidender Bedeutung. Aus diesen Gründen sind die Pipelines, die Daten laden und verarbeiten, für die Analytik und das maschinelle Lernen von entscheidender Bedeutung.

Datenbanken und Datenplattformen für alle Arten von Datenmanagement-Herausforderungen

Das Laden und Verarbeiten von Daten ist ein notwendiger erster Schritt, aber dann wird es komplizierter, wenn es um die Auswahl der optimalen Datenbanken geht. Zu den heutigen Auswahlmöglichkeiten gehören Data Warehouses für Unternehmen, Datenseen, große Datenverarbeitungsplattformen und spezialisierte NoSQL-, Diagramm-, Schlüsselwert-, Dokumenten- und Spaltendatenbanken. Zur Unterstützung großer Data Warehouses und Analysen gibt es Plattformen wie Snowflake, Redshift, BigQuery, Vertica und Greenplum. Und schließlich gibt es die großen Datenplattformen, darunter Spark und Hadoop.

Große Unternehmen werden wahrscheinlich mehrere Datenspeicher haben und Cloud-Datenplattformen wie Cloudera Data Platform oder MapR Data Platform oder Datenorchestrierungsplattformen wie InfoWorks DataFoundy verwenden, um all diese Speicher für Analysen zugänglich zu machen.

Die wichtigsten öffentlichen Clouds, einschließlich AWS, GCP und Azure, verfügen alle über Datenverwaltungsplattformen und -dienste, die es zu durchforsten gilt. Beispielsweise ist Azure Synapse Analytics das SQL-Datenlager von Microsoft in der Cloud, während Azure Cosmos DB Schnittstellen zu vielen NoSQL-Datenspeichern bietet, darunter Cassandra (Säulendaten), MongoDB (Schlüsselwert- und Dokumentdaten) und Gremlin (Diagrammdaten).

Datenseen sind beliebte Ladedocks, um unstrukturierte Daten für eine schnelle Analyse zu zentralisieren, und man kann zu diesem Zweck auf Azure Data Lake, Amazon S3 oder Google Cloud Storage zurückgreifen. Für die Verarbeitung großer Daten gibt es in den AWS-, GCP- und Azure-Clouds auch Spark und Hadoop-Angebote.

Analyseplattformen zielen auf maschinelles Lernen und Zusammenarbeit ab

Wenn die Daten geladen, bereinigt und gespeichert sind, können Datenwissenschaftler und Analysten mit der Durchführung von Analysen und maschinellem Lernen beginnen. Unternehmen haben viele Optionen, die von den Analysetypen, den Fähigkeiten des Analyse-Teams, das die Arbeit durchführt, und der Struktur der zugrunde liegenden Daten abhängen.

Analysen können in Self-Service-Tools zur Datenvisualisierung wie Tableau und Microsoft Power BI durchgeführt werden. Beide Tools richten sich an Bürgerdatenwissenschaftler und stellen Visualisierungen, Berechnungen und grundlegende Analysen vor. Diese Tools unterstützen die Integration grundlegender Daten und die Datenumstrukturierung, aber komplexere Datenkonflikte treten häufig vor den Analyseschritten auf. Tableau Data Prep und Azure Data Factory sind die begleitenden Tools, die bei der Integration und Transformation von Daten helfen.

Analyseteams, die mehr als nur Datenintegration und -vorbereitung automatisieren möchten, können auf Plattformen wie Alteryx Analytics Process Automation zurückgreifen. Diese durchgehende, kollaborative Plattform verbindet Entwickler, Analysten, Bürgerdatenwissenschaftler und Datenwissenschaftler mit Workflow-Automatisierung und Selbstbedienungs-Datenverarbeitung, Analysen und Verarbeitungsfunktionen für maschinelles Lernen.

Alan Jacobson, Chief Analytics and Data Officer bei Alteryx, erklärt: „Das Aufkommen der analytischen Prozessautomatisierung (APA) als Kategorie unterstreicht eine neue Erwartung an jeden Mitarbeiter in einer Organisation, ein Datenarbeiter zu sein. IT-Entwickler bilden da keine Ausnahme, und die Erweiterbarkeit der APA-Plattform von Alteryx ist für diese Wissensarbeiter besonders nützlich.

Es gibt verschiedene Tools und Plattformen für Datenwissenschaftler, die darauf abzielen, sie mit Technologien wie Python und R produktiver zu machen und gleichzeitig viele der Betriebs- und Infrastrukturschritte zu vereinfachen. Databricks ist zum Beispiel eine datenwissenschaftliche Betriebsplattform, die es ermöglicht, Algorithmen für Apache Spark und TensorFlow zu implementieren und gleichzeitig die Rechencluster in der AWS- oder Azure-Cloud selbst zu verwalten.

Inzwischen vereinen einige Plattformen wie SAS Viya Datenvorbereitung, Analyse, Prognose, maschinelles Lernen, Textanalyse und Modellverwaltung für maschinelles Lernen auf einer einzigen Modelops-Plattform. SAS operationalisiert die Analytik und richtet sich an Datenwissenschaftler, Geschäftsanalytiker, Entwickler und Führungskräfte mit einer End-to-End-Kollaborationsplattform.

David Duling, Direktor für Forschung und Entwicklung im Bereich Entscheidungsmanagement bei SAS, erklärt: „Wir sehen modelops als die Praxis der Schaffung einer wiederholbaren, prüfbaren Pipeline von Operationen zur Bereitstellung aller Analysen, einschließlich KI- und ML-Modelle, in operativen Systemen. Als Teil von modelops können wir moderne Devops-Praktiken für Code-Management, Testen und Überwachung nutzen. Dies trägt dazu bei, die Häufigkeit und Zuverlässigkeit der Modellbereitstellung zu verbessern, was wiederum die Agilität der auf diesen Modellen aufbauenden Geschäftsprozesse erhöht.

Dataiku ist eine weitere Plattform, die darauf abzielt, wachsenden Datenforschungsteams und ihren Mitarbeitern Datenvorbereitung, Analyse und maschinelles Lernen zu ermöglichen. Dataiku verfügt über ein visuelles Programmiermodell zur Erleichterung der Zusammenarbeit und Code-Notebooks für fortgeschrittenere SQL- und Python-Entwickler.

Andere Analyse- und maschinelle Lernplattformen von führenden Unternehmenssoftware-Anbietern zielen darauf ab, Analysefähigkeiten in Datenzentren und Cloud-Datenquellen zu bringen. Beispielsweise zielen Oracle Analytics Cloud und SAP Analytics Cloud beide darauf ab, Intelligence zu zentralisieren und Erkenntnisse zu automatisieren, um End-to-End-Entscheidungen zu ermöglichen.

Auswahl einer Datenanalyseplattform

Die Auswahl von Datenintegrations-, Lagerhaltungs- und Analysetools war vor dem Aufkommen großer Datenmengen, maschinellen Lernens und Data Governance einfacher. Heute gibt es eine Vermischung von Terminologie, Plattformfunktionen, betrieblichen Anforderungen, Governance-Bedürfnissen und zielgerichteten Benutzerpersönlichkeiten, die die Auswahl von Plattformen komplexer machen, insbesondere da viele Anbieter Mehrfachnutzungsparadigmen unterstützen.

Die versteckten Kosten der Cloud

Unternehmen unterscheiden sich in ihren Analyseanforderungen und -bedürfnissen, sollten aber neue Plattformen aus der Sicht dessen suchen, was bereits vorhanden ist. Zum Beispiel:

Unternehmen, die mit wissenschaftlichen Programmen für Bürgerdaten erfolgreich waren und bereits Datenvisualisierungstools im Einsatz haben, können dieses Programm um die Automatisierung von Analyseprozessen oder Datenvorbereitungstechnologien erweitern.
Unternehmen, die eine Toolkette wünschen, die es Datenwissenschaftlern ermöglicht, in verschiedenen Bereichen des Unternehmens zu arbeiten, können End-to-End-Analyseplattformen mit Modelops-Fähigkeiten in Betracht ziehen.
Organisationen mit mehreren, unterschiedlichen Back-End-Datenplattformen können von Cloud-Datenplattformen profitieren, um sie zu katalogisieren und zentral zu verwalten.
Unternehmen, die alle oder die meisten Datenfunktionen auf einem einzigen öffentlichen Cloud-Anbieter standardisieren, sollten die angebotenen Datenintegrations-, Datenverwaltungs- und Datenanalyseplattformen prüfen.

Da Analytik und maschinelles Lernen zu einer wichtigen Kernkompetenz werden, sollten Technologen in Betracht ziehen, ihr Verständnis der verfügbaren Plattformen und ihrer Fähigkeiten zu vertiefen. Die Macht und der Wert von Analyseplattformen werden nur zunehmen, ebenso wie ihr Einfluss auf das gesamte Unternehmen.

*Isaac Sacolick ist der Autor von „Driving Digital: The Leader’s Guide to Business Transformation through Technology“ (Leitfaden für Unternehmensumwandlung durch Technologie), welches viele Praktiken wie Agile, Devops und Datenwissenschaft behandelt, die für erfolgreiche digitale Umwandlungsprogramme entscheidend sind. Sacolick ist ein anerkannter Top-Social-CIO, ein langjähriger Blogger bei Social, Agile and Transformation und CIO.com und Präsident