29. März 2025

12. Februar 2019 Simon Bisson* und Julia Krokoszinski

So verwenden Sie den Azure Data Explorer für die Analyse großer Datenmengen

Das neue Microsoft-Tool kann Ihnen dabei helfen, mit den Terabyte-umfassenden Datenmengen während der Datenanalyse fertigzuwerden. Wir geben einen grundlegenden Überblick über Azures Möglichkeiten. [...]

office-3295556_1920 — Die Analyse großer Datenmengen kann viel Zeit und Speicher kosten. Der Azure Data Explorer soll diesen Vorgang nun vereinfachen (c) Pixabay.com

Eines der größten Probleme bei der Entwicklung einer datengesteuerten Devops-Praxis ist ganz schlicht und ergreifend der Umfang der Daten, die dabei gesammelt werden. Protokolle von Millionen von Benutzern summieren sich schnell, und das gilt ebenso für das Internet of Things oder andere große Datenquellen. Wir leben in einer Welt, in der Sie Terabytes an Daten generieren und dabei so schnell wie möglich verstehen müssen, was eben diese Daten Ihnen sagen.

Herkömmliche Datenbanken sind keine große Hilfe, denn dort müssen Sie die Daten erst durch einen Extraktions-, Umwandlungs- und Ladeprozess (ETL-Prozess) laufen lassen, bevor Sie mit Analyse beginnen können, selbst wenn Sie die Verwendung von Analysetools im Data-Warehouse-Stil in Betracht ziehen. Tools für den Umgang mit riesigen Datenmengen werden nicht nur für analytische Systeme, sondern auch für die Bereitstellung von Schulungsdaten für das Erstellen von Machine Learning-Modellen immer wichtiger.

Der Azure Data Explorer

Hier kommt der Azure Data-Explorer ins Spiel. Mit diesem Tool können Sie Ihre Daten nach Belieben durchsuchen, Ad-hoc-Abfragen durchführen und sie schnell auf einen zentralen Speicher übertragen. Microsoft behauptet, Importgeschwindigkeiten von bis zu 200 MB/s pro Knoten zu erreichen, und dass Abfragen von über eine Milliarde von Datensätzen sogar weniger als eine Sekunde dauern. Daten können mithilfe herkömmlicher Techniken oder über mehrere Zeitreihen hinweg analysiert werden. Letzteres beinhaltet außerdem eine vollständig verwaltete Plattform, auf der Sie lediglich Ihre Daten und Abfragen berücksichtigen müssen.

Das Arbeiten mit Cloud-Skalierung kann die Erzeugung großer Datenmengen bedeuten, die mit herkömmlichen Tools nur schwer zu analysieren sind. Wie Cosmos DB ist der Azure Data Explorer ein weiteres Beispiel dafür, wie Microsoft seinen Kunden immer mehr eigene interne Tools zur Verfügung stellt. Aufgrund der Skalierung einer öffentlichen Cloud musste Microsoft neue Tools entwickeln, um Problemen beim Umgang mit Terabytes von Daten und dem Verwalten riesiger Rechenzentren entgegenzuwirken. Azure Data Explorer führt diese Elemente zusammen und verwandelt sie in ein einziges Tool, das mit Ihren Protokolldateien und Streaming-Daten arbeiten kann.

Der ursprünglich unter dem Codenamen Kusto bekannte Azure Data Explorer ist die kommerzielle Version der Tools, die Microsoft zur Verwaltung seiner eigenen Protokolldaten in Azure verwendet. Im Jahr 2016 hat Microsoft mehr als eine Billion Ereignisse und täglich mehr als 600 TB an Daten verarbeitet – genug Daten, um das zugrunde liegende System gründlich zu testen. Wenn Sie nicht gerade alle IoT-Systeme für BP oder ein anderes großes Mineralölunternehmen betreiben, werden Sie vermutlich nicht so viele Daten verarbeiten müssen, doch es ist gut zu wissen, dass auch diese Option vorhanden ist.

Azure Data Explorer: Eine Abfrage-Engine für Cloud-Daten

Das Herzstück des Azure Data Explorers ist eine benutzerdefinierte Abfragemaschine mit einer eigenen Abfragesprache, die für die Arbeit mit großen Datenmengen optimiert ist und mit einer Mischung aus strukturierten und unstrukturierten Daten aus vielen Quellen arbeiten kann. Es ist ein schreibgeschütztes Tool, das besonders für die Arbeit mit Protokollen und spaltbasierten Speichertechnologien nützlich ist. Microsoft verwendet Elemente seiner Kusto-Abfragesprache in anderen Azure-Tools, einschließlich des Application Insights-Tools, das den Kern für die meisten Betriebsseiten von Azure DevOps bildet.

Bevor Sie irgendwelche Daten erfassen, beginnen Sie damit, ein Cluster mit den zugehörigen Datenbanken zu erstellen. Sobald alles an seinem Platz ist und die Daten empfangen werden, können Sie sie mithilfe einer Abfrage-Engine durchsuchen, die entweder als eigenständige Anwendung verfügbar ist oder im Azure-Portal gehostet wird. Das Hinzufügen der Engine zu einer vorhandenen Datenpipeline hat keine Auswirkungen auf Ihre Anwendungen. Dies ist nur eine weitere Verzweigung in Ihrer Pipeline, die die zur Verfügung gestellte Architektur von Azure für den Betrieb außerhalb Ihres Anwendungsflusses nutzt.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Manoj Raheja gibt einen Überblick über den Azure Data Explorer

Ein Teil Ihrer Datenpipeline zu sein und dabei außerhalb Ihrer Anwendungen zu bleiben, ist ein wichtiger Aspekt der Arbeit mit Azure Data Explorer. Es ist ein Tool für die spekulative Analyse Ihrer Daten; eines, das den Code, den Sie erstellen, mit Informationen versorgt, um die Abfrage zu optimieren oder neue Modelle zu entwickeln, die Teil Ihrer Plattform für maschinelles Lernen werden können. Durch die Abfragen werden Ihre Daten nicht verändert, und sie können mit anderen Benutzern geteilt werden. Dies macht es zu einem nützlichen Werkzeug für Data Science-Teams.

Die Verwendung des Azure Data Explorers mit Anwendungsdaten

Eine der nützlicheren Möglichkeiten, mit Azure Data Explorer zu arbeiten, ist die Verwendung von Event Hubs und Event Grid. Beginnen Sie mit der Erstellung einer Tabelle in Ihrer Data Explorer-Instanz und ordnen Sie sie der Struktur der JSON-Daten zu, die vom Event Hub verarbeitet werden. Sobald dies geschehen ist, verbinden Sie Ihren Event Hub-Feed mit einer Tabelle, indem Sie Ihre JSON-Zuordnung zum Ausfüllen der Daten verwenden. Des Weiteren müssen Sie außerdem alle verfügbaren Connection Strings einrichten, um die Verknüpfung zwischen Ihrem Event Hub und Ihrer Daten-Explorer-Tabelle zu autorisieren. Nach dem Ausführen werden Sie möglicherweise eine Weile warten müssen, bevor die Datenabfrage abgeschlossen ist, da der Aufnahmevorgang die Daten stapelt, bevor Sie in die Tabelle eingespeist werden.

Während die Daten in Ihre Daten-Explorer-Tabelle eingespeist werden, können Sie mit dem Erstellen von Abfragen beginnen. Verwenden Sie das Azure-Portal, um Ihre ersten Abfragen mit dem zugehörigen Tool zu erstellen. Wenn Sie keine eigenen Datenquellen erstellen möchten, können Sie auch mit einem der von Microsoft vorkonfigurierten Testcluster beginnen und diesen für Ihre Abfrageexperimente verwenden.

Um eine Tabelle abzufragen, starten Sie einfach eine Abfrage mit ihrem jeweiligen Namen und wenden anschließend Ihre Sortierkriterien an, bevor Sie nach den Daten filtern, die Sie verwenden möchten. Der Azure Portal-basierte Abfrage-Generator zeigt die Ergebnisse dann in einer Tabelle an. Bei komplexeren Abfragen können Sie auswählen, welche Elemente einer Tabelle Sie sich anzeigen lassen möchten. Der Befehl Recall ruft vorherige Abfragen auf, sodass Sie verschiedene Durchgänge mit denselben Daten miteinander vergleichen können.

Das Tool-Panel in der Spaltenansicht bietet noch mehr Abfrageoptionen, sodass Sie noch mehr Möglichkeiten haben, Ihre Daten zu filtern und sogar grundlegende Pivot-Tabellenoptionen anzuwenden. Wenn Sie die Datenanalysefunktionen von Excel verwendet haben, sind Sie mit diesem Werkzeug bereits sehr vertraut, um schnellstmöglich interessante Datenpunkte zu finden, die eine tiefere Analyse ermöglichen. Der Abfrage-Generator enthält auch Tools für die grundlegende Visualisierung der Ergebnisse. Dabei können Sie aus einer Reihe von Diagrammtypen auswählen.

Sie sind nicht darauf beschränkt, den Portal Query Builder zu verwenden, da Microsoft mittlerweile auch eine Python-Bibliothek veröffentlicht hat, die sich speziell an Datenwissenschaftler richtet. Mit Python, einem wichtigen Tool für maschinelles Lernen, können Sie andere Tools wie die Anaconda-Analyseumgebung und Jupyter Notebooks verwenden, um mit Ihren Azure Data Explorer-Datensätzen zu arbeiten. Datenwissenschaftler sind nicht die einzige Zielgruppe für den Azure Data Explorer. Es gibt auch einen Anschluss an Power BI für Geschäftsanalysten.

*Simon Bisson ist Kolumnist und schreibt unter anderem für InfoWorld.com

6 Grundsätze für eine KI-taugliche Datenbasis

28. März 2025

Wer Künstliche Intelligenz nutzen will, muss über eine vertrauenswürdige Datengrundlage verfügen. Daten sind das Lebenselixier von KI-Systemen und bestimmen maßgeblich die Qualität und Zuverlässigkeit der Ergebnisse. Nur so können KI-Modelle robust, anpassungsfähig und vertrauenswürdig arbeiten. […]

Cybersicherheitsbudgets werden falsch priorisiert

28. März 2025

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

28. März 2025

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

IT-Chefs von ORF und der Österreichischen Post als CIOs des Jahres ausgezeichnet

28. März 2025

Astrid Zöchling, CIO des ORF, und Horst Ulrich Mooshandl, CIO & CPO der Österreichischen Post, wurden von Confare mit dem CIO Award 2025 ausgezeichnet. Die weiteren Top CIOs des Jahres sind Franz Hillebrand, ehemaliger CIO der SIGNA, Martin Karanitsch, CIO der Österreichischen Nationalbank und Peter Reichstädter, CIO der Parlamentsdirektion. […]

Die Wi-Fi-Standards

28. März 2025 Luca Diggelmann *

Die Welt der Wi-Fi-Standards wirkt kompliziert. Es gibt Wi-Fi 5, Wi-Fi 6 und bald Wi-Fi 7. Doch welcher Standard kann was? Wir erklären Ihnen die aktuellen Wi-Fi-Standards und verraten, was diese taugen. […]

In sieben Minuten kann METRO Markets über 200 Kategorie-Seiten erstellen. (c) Storyblok

METRO Markets optimiert Content-Prozesse mit Storyblok

27. März 2025 pi/cb

METRO Markets implementiert Storyblok als CMS und automatisiert zentrale Prozesse. Dadurch steigern sich Effizienz, SEO-Leistung und Personalisierung im E-Commerce. […]

„Der Mensch bleibt das Maß aller Dinge“

27. März 2025 Wolfgang Franz

Am 25. März startete der europäische IT-Sicherheitshersteller ESET die ESET World 2025 im ARIA Resort & Casino in Las Vegas. CEO Richard Marko gab in seiner Keynote eine Übersicht der aktuellen Herausforderungen in Sachen Cybersecurity und der Möglichkeiten, diese zu meistern. […]

Generative KI als Sicherheitsrisiko

27. März 2025

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

KI direkt am Edge: fünf unschlagbare Vorteile

27. März 2025

Die Integration von künstlicher Intelligenz am Edge schafft einen Paradigmenwechsel in der Datenverarbeitung. Moderne IT-Plattformen mit ihren kompakten KI-Servern ermöglichen es, wichtige Informationen direkt an der Quelle zu analysieren. […]

Be the first to comment

Leave a Reply Antworten abbrechen

Das neue Microsoft-Tool kann Ihnen dabei helfen, mit den Terabyte-umfassenden Datenmengen während der Datenanalyse fertigzuwerden. Wir geben einen grundlegenden Überblick über Azures Möglichkeiten. [...]

Der Azure Data Explorer

Azure Data Explorer: Eine Abfrage-Engine für Cloud-Daten

Die Verwendung des Azure Data Explorers mit Anwendungsdaten

Mehr Artikel

Be the first to comment

Leave a Reply Antworten abbrechen