So wählen Sie die geeignete Datenanalyse-Plattform

Ein kurzer Leitfaden über den Analyse-Lebenszyklus, das wachsende Angebot an Tools und Technologien und die Auswahl der richtigen Datenplattform für Ihre Bedürfnisse. [...]

img-1
Der Stellenwert von Daten und Datenanalyse wird auch in Zukunft immer weiter steigen. Deshalb ist es sinnvoll, die richtigen Tools für Ihren Bedarf zu kennen (c) pixabay.com

Unabhängig davon, ob Sie Verantwortlichkeiten in der Software-Entwicklung, in der Entwicklung, in Systemen, Clouds, Testautomatisierung, Standort-Zuverlässigkeit, bei der Leitung von Scrum-Teams, infosec oder in anderen Bereichen der Informationstechnologie haben, Sie werden immer mehr Gelegenheiten und Erfordernisse haben, mit Daten, Analysen und maschinellem Lernen zu arbeiten.

Ihr Zugang zu Analysen kann durch IT-Daten erfolgen, z. B. durch die Entwicklung von Metriken und Erkenntnissen aus agilen, Devops oder Website-Metriken. Es gibt keine bessere Art und Weise, die grundlegenden Fähigkeiten und Tools im Zusammenhang mit Daten, Analysen und maschinellem Lernen zu erlernen, als sie auf Daten anzuwenden, die Sie kennen und die Sie nach Erkenntnissen durchsuchen können, um entsprechende Maßnahmen zu ergreifen.

Die Dinge werden etwas komplexer, sobald Sie aus der Welt der IT-Daten ausbrechen und Dienstleistungen für Teams von Datenwissenschaftlern, Bürgerdatenwissenschaftlern und anderen Geschäftsanalytikern anbieten, die Datenvisualisierungen, Analysen und maschinelles Lernen einsetzen.

Zunächst müssen Daten geladen und bereinigt werden. Dann werden Sie – je nach Volumen, Vielfalt und Geschwindigkeit der Daten – wahrscheinlich auf mehrere Back-End-Datenbanken und Cloud-Datentechnologien stoßen. Und schließlich hat sich in den letzten Jahren das, was früher die Wahl zwischen Business Intelligence- und Datenvisualisierungstools war, zu einer komplexen Matrix von Analyse- und maschinellen Lernplattformen für den gesamten Lebenszyklus entwickelt.

Die Bedeutung der Analytik und des maschinellen Lernens steigert die Verantwortung der IT in mehreren Bereichen. Zum Beispiel:

  • Die IT stellt häufig Dienste rund um alle Datenintegrationen, Back-End-Datenbanken und Analyseplattformen zur Verfügung.
  • Devops-Teams setzen die Dateninfrastruktur häufig ein und skalieren sie, um das Experimentieren mit maschinellen Lernmodellen zu ermöglichen und dann die Verarbeitung der Produktionsdaten zu unterstützen.
  • Netzwerkbetriebsteams stellen sichere Verbindungen zwischen SaaS-Analysetools, Multi-Clouds und Rechenzentren her.
  • IT-Servicemanagement-Teams reagieren auf Daten- und Analyseservice-Anfragen und -Vorfälle.
  • Infosec überwacht die Verwaltung und Implementierung der Datensicherheit.
  • Entwickler integrieren Analyse- und maschinelle Lernmodelle in Anwendungen.

Angesichts der explosionsartigen Zunahme von Analysen, Cloud-Datenplattformen und maschinellen Lernfunktionen ist hier ein Leitfaden zum besseren Verständnis des Analyse-Lebenszyklus, von der Datenintegration und -bereinigung über Dataops und Modelops bis hin zu den Datenbanken, Datenplattformen und Analyseangeboten selbst.

Analytik beginnt mit Datenintegration und Datenbereinigung

Bevor Analysten, Bürgerdatenwissenschaftler oder datenwissenschaftliche Teams Analysen durchführen können, müssen ihnen die erforderlichen Datenquellen in ihren Datenvisualisierungs- und Analyseplattformen zugänglich sein.

Zu Beginn kann es geschäftliche Anforderungen geben, Daten aus mehreren Unternehmenssystemen zu integrieren, Daten aus SaaS-Anwendungen zu extrahieren oder Daten von IoT-Sensoren und anderen Echtzeit-Datenquellen zu streamen.

Dies alles sind die Schritte zum Sammeln, Laden und Integrieren von Daten für die Analyse und das maschinelle Lernen. Je nach Komplexität der Daten und Datenqualitätsfragen gibt es Möglichkeiten, sich an Dataops, Datenkatalogisierung, Stammdatenverwaltung und anderen Data-Governance-Initiativen zu beteiligen.

Wir alle kennen den Ausdruck „Garbage in, Garbage out“. Analysten müssen über die Qualität ihrer Daten besorgt sein, und Datenwissenschaftler müssen über Verzerrungen in ihren maschinellen Lernmodellen besorgt sein. Auch die Rechtzeitigkeit der Integration neuer Daten ist für Unternehmen, die datengesteuert in Echtzeit arbeiten wollen, von entscheidender Bedeutung. Aus diesen Gründen sind die Pipelines, die Daten laden und verarbeiten, für die Analytik und das maschinelle Lernen von entscheidender Bedeutung.

Datenbanken und Datenplattformen für alle Arten von Datenmanagement-Herausforderungen

Das Laden und Verarbeiten von Daten ist ein notwendiger erster Schritt, aber dann wird es komplizierter, wenn es um die Auswahl der optimalen Datenbanken geht. Zu den heutigen Auswahlmöglichkeiten gehören Data Warehouses für Unternehmen, Datenseen, große Datenverarbeitungsplattformen und spezialisierte NoSQL-, Diagramm-, Schlüsselwert-, Dokumenten- und Spaltendatenbanken. Zur Unterstützung großer Data Warehouses und Analysen gibt es Plattformen wie Snowflake, Redshift, BigQuery, Vertica und Greenplum. Und schließlich gibt es die großen Datenplattformen, darunter Spark und Hadoop.

Große Unternehmen werden wahrscheinlich mehrere Datenspeicher haben und Cloud-Datenplattformen wie Cloudera Data Platform oder MapR Data Platform oder Datenorchestrierungsplattformen wie InfoWorks DataFoundy verwenden, um all diese Speicher für Analysen zugänglich zu machen.

Die wichtigsten öffentlichen Clouds, einschließlich AWS, GCP und Azure, verfügen alle über Datenverwaltungsplattformen und -dienste, die es zu durchforsten gilt. Beispielsweise ist Azure Synapse Analytics das SQL-Datenlager von Microsoft in der Cloud, während Azure Cosmos DB Schnittstellen zu vielen NoSQL-Datenspeichern bietet, darunter Cassandra (Säulendaten), MongoDB (Schlüsselwert- und Dokumentdaten) und Gremlin (Diagrammdaten).

Datenseen sind beliebte Ladedocks, um unstrukturierte Daten für eine schnelle Analyse zu zentralisieren, und man kann zu diesem Zweck auf Azure Data Lake, Amazon S3 oder Google Cloud Storage zurückgreifen. Für die Verarbeitung großer Daten gibt es in den AWS-, GCP- und Azure-Clouds auch Spark und Hadoop-Angebote.

Analyseplattformen zielen auf maschinelles Lernen und Zusammenarbeit ab

Wenn die Daten geladen, bereinigt und gespeichert sind, können Datenwissenschaftler und Analysten mit der Durchführung von Analysen und maschinellem Lernen beginnen. Unternehmen haben viele Optionen, die von den Analysetypen, den Fähigkeiten des Analyse-Teams, das die Arbeit durchführt, und der Struktur der zugrunde liegenden Daten abhängen.

Analysen können in Self-Service-Tools zur Datenvisualisierung wie Tableau und Microsoft Power BI durchgeführt werden. Beide Tools richten sich an Bürgerdatenwissenschaftler und stellen Visualisierungen, Berechnungen und grundlegende Analysen vor. Diese Tools unterstützen die Integration grundlegender Daten und die Datenumstrukturierung, aber komplexere Datenkonflikte treten häufig vor den Analyseschritten auf. Tableau Data Prep und Azure Data Factory sind die begleitenden Tools, die bei der Integration und Transformation von Daten helfen.

Analyseteams, die mehr als nur Datenintegration und -vorbereitung automatisieren möchten, können auf Plattformen wie Alteryx Analytics Process Automation zurückgreifen. Diese durchgehende, kollaborative Plattform verbindet Entwickler, Analysten, Bürgerdatenwissenschaftler und Datenwissenschaftler mit Workflow-Automatisierung und Selbstbedienungs-Datenverarbeitung, Analysen und Verarbeitungsfunktionen für maschinelles Lernen.

Alan Jacobson, Chief Analytics and Data Officer bei Alteryx, erklärt: „Das Aufkommen der analytischen Prozessautomatisierung (APA) als Kategorie unterstreicht eine neue Erwartung an jeden Mitarbeiter in einer Organisation, ein Datenarbeiter zu sein. IT-Entwickler bilden da keine Ausnahme, und die Erweiterbarkeit der APA-Plattform von Alteryx ist für diese Wissensarbeiter besonders nützlich.

Es gibt verschiedene Tools und Plattformen für Datenwissenschaftler, die darauf abzielen, sie mit Technologien wie Python und R produktiver zu machen und gleichzeitig viele der Betriebs- und Infrastrukturschritte zu vereinfachen. Databricks ist zum Beispiel eine datenwissenschaftliche Betriebsplattform, die es ermöglicht, Algorithmen für Apache Spark und TensorFlow zu implementieren und gleichzeitig die Rechencluster in der AWS- oder Azure-Cloud selbst zu verwalten.

Inzwischen vereinen einige Plattformen wie SAS Viya Datenvorbereitung, Analyse, Prognose, maschinelles Lernen, Textanalyse und Modellverwaltung für maschinelles Lernen auf einer einzigen Modelops-Plattform. SAS operationalisiert die Analytik und richtet sich an Datenwissenschaftler, Geschäftsanalytiker, Entwickler und Führungskräfte mit einer End-to-End-Kollaborationsplattform.

David Duling, Direktor für Forschung und Entwicklung im Bereich Entscheidungsmanagement bei SAS, erklärt: „Wir sehen modelops als die Praxis der Schaffung einer wiederholbaren, prüfbaren Pipeline von Operationen zur Bereitstellung aller Analysen, einschließlich KI- und ML-Modelle, in operativen Systemen. Als Teil von modelops können wir moderne Devops-Praktiken für Code-Management, Testen und Überwachung nutzen. Dies trägt dazu bei, die Häufigkeit und Zuverlässigkeit der Modellbereitstellung zu verbessern, was wiederum die Agilität der auf diesen Modellen aufbauenden Geschäftsprozesse erhöht.

Dataiku ist eine weitere Plattform, die darauf abzielt, wachsenden Datenforschungsteams und ihren Mitarbeitern Datenvorbereitung, Analyse und maschinelles Lernen zu ermöglichen. Dataiku verfügt über ein visuelles Programmiermodell zur Erleichterung der Zusammenarbeit und Code-Notebooks für fortgeschrittenere SQL- und Python-Entwickler.

Andere Analyse- und maschinelle Lernplattformen von führenden Unternehmenssoftware-Anbietern zielen darauf ab, Analysefähigkeiten in Datenzentren und Cloud-Datenquellen zu bringen. Beispielsweise zielen Oracle Analytics Cloud und SAP Analytics Cloud beide darauf ab, Intelligence zu zentralisieren und Erkenntnisse zu automatisieren, um End-to-End-Entscheidungen zu ermöglichen.

Auswahl einer Datenanalyseplattform

Die Auswahl von Datenintegrations-, Lagerhaltungs- und Analysetools war vor dem Aufkommen großer Datenmengen, maschinellen Lernens und Data Governance einfacher. Heute gibt es eine Vermischung von Terminologie, Plattformfunktionen, betrieblichen Anforderungen, Governance-Bedürfnissen und zielgerichteten Benutzerpersönlichkeiten, die die Auswahl von Plattformen komplexer machen, insbesondere da viele Anbieter Mehrfachnutzungsparadigmen unterstützen.

Unternehmen unterscheiden sich in ihren Analyseanforderungen und -bedürfnissen, sollten aber neue Plattformen aus der Sicht dessen suchen, was bereits vorhanden ist. Zum Beispiel:

  • Unternehmen, die mit wissenschaftlichen Programmen für Bürgerdaten erfolgreich waren und bereits Datenvisualisierungstools im Einsatz haben, können dieses Programm um die Automatisierung von Analyseprozessen oder Datenvorbereitungstechnologien erweitern.
  • Unternehmen, die eine Toolkette wünschen, die es Datenwissenschaftlern ermöglicht, in verschiedenen Bereichen des Unternehmens zu arbeiten, können End-to-End-Analyseplattformen mit Modelops-Fähigkeiten in Betracht ziehen.
  • Organisationen mit mehreren, unterschiedlichen Back-End-Datenplattformen können von Cloud-Datenplattformen profitieren, um sie zu katalogisieren und zentral zu verwalten.
  • Unternehmen, die alle oder die meisten Datenfunktionen auf einem einzigen öffentlichen Cloud-Anbieter standardisieren, sollten die angebotenen Datenintegrations-, Datenverwaltungs- und Datenanalyseplattformen prüfen.

Da Analytik und maschinelles Lernen zu einer wichtigen Kernkompetenz werden, sollten Technologen in Betracht ziehen, ihr Verständnis der verfügbaren Plattformen und ihrer Fähigkeiten zu vertiefen. Die Macht und der Wert von Analyseplattformen werden nur zunehmen, ebenso wie ihr Einfluss auf das gesamte Unternehmen.

*Isaac Sacolick ist der Autor von „Driving Digital: The Leader’s Guide to Business Transformation through Technology“ (Leitfaden für Unternehmensumwandlung durch Technologie), welches viele Praktiken wie Agile, Devops und Datenwissenschaft behandelt, die für erfolgreiche digitale Umwandlungsprogramme entscheidend sind. Sacolick ist ein anerkannter Top-Social-CIO, ein langjähriger Blogger bei Social, Agile and Transformation und CIO.com und Präsident


Mehr Artikel

Otto Neuer, Regional VP und General Manager bei Denodo. (c) Denodo
Kommentar

Wie logisches Datenmanagement das ESG-Reporting vereinfacht

Mit zunehmendem Bewusstsein für Nachhaltigkeitsthemen wächst auch der Druck, den Stakeholder diesbezüglich auf Unternehmen ausüben. Gerade auf Seiten der Gesetzesgeber entstehen vermehrt Richtlinien, die „ESG“ (Enviornmental, Social und Governance)-Anliegen vorantreiben und Unternehmen zu mehr Transparenz in Form von entsprechender Berichterstattung verpflichten. […]

Frank Schwaak, Field CTO EMEA bei Rubrik (c) Rubrik
Kommentar

Wie CIOs Unternehmen als Cloud-Lotse sicher durch Daten- und Sicherheitsrisiken führen

In einer fragmentierten Infrastruktur ist es herausfordernd, den Durchblick über Daten und Kosten zu behalten. CIOs werden zu Lotsen, die das Unternehmen sicher durch die unterschiedlichen Cloud-Umgebungen steuern müssen. Was können Unternehmen also tun, um den Überblick über Cloud-Anwendungen zu behalten und den Kurs zwischen Cloud und Cyberresilienz zu halten? […]

Ass. Prof. Dr. Johannes Brandstetter, Chief Researcher bei NXAI (c) NXAI
News

KI-Forschung in Österreich: Deep-Learning zur Simulation industrieller Prozesse

Als erstes Team weltweit präsentiert das NXAI-Forscherteam um Johannes Brandstetter eine End-to-End-Deep-Learning Alternative zur Modifizierung industrieller Prozesse, wie Wirbelschichtreaktoren oder Silos. Das Team strebt schnelle Echtzeit-Simulationen an, plant den Aufbau von Foundation Models für Industriekunden und fokussiert sich im nächsten Schritt auf die Generalisierung von Simulationen. […]

img-10
News

Die besten Arbeitgeber der Welt

Great Place To Work hat durch die Befragung von mehr als 7,4 Millionen Mitarbeitenden in den Jahren 2023 und 2024 die 25 World’s Best Workplaces identifiziert. 6 dieser Unternehmen wurden auch in Österreich als Best Workplaces ausgezeichnet. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*