So verwenden Sie den Azure Data Explorer für die Analyse großer Datenmengen

Das neue Microsoft-Tool kann Ihnen dabei helfen, mit den Terabyte-umfassenden Datenmengen während der Datenanalyse fertigzuwerden. Wir geben einen grundlegenden Überblick über Azures Möglichkeiten. [...]

Die Analyse großer Datenmengen kann viel Zeit und Speicher kosten. Der Azure Data Explorer soll diesen Vorgang nun vereinfachen (c) Pixabay.com

Eines der größten Probleme bei der Entwicklung einer datengesteuerten Devops-Praxis ist ganz schlicht und ergreifend der Umfang der Daten, die dabei gesammelt werden. Protokolle von Millionen von Benutzern summieren sich schnell, und das gilt ebenso für das Internet of Things oder andere große Datenquellen. Wir leben in einer Welt, in der Sie Terabytes an Daten generieren und dabei so schnell wie möglich verstehen müssen, was eben diese Daten Ihnen sagen.

Herkömmliche Datenbanken sind keine große Hilfe, denn dort müssen Sie die Daten erst durch einen Extraktions-, Umwandlungs- und Ladeprozess (ETL-Prozess) laufen lassen, bevor Sie mit Analyse beginnen können, selbst wenn Sie die Verwendung von Analysetools im Data-Warehouse-Stil in Betracht ziehen. Tools für den Umgang mit riesigen Datenmengen werden nicht nur für analytische Systeme, sondern auch für die Bereitstellung von Schulungsdaten für das Erstellen von Machine Learning-Modellen immer wichtiger.

Der Azure Data Explorer

Hier kommt der Azure Data-Explorer ins Spiel. Mit diesem Tool können Sie Ihre Daten nach Belieben durchsuchen, Ad-hoc-Abfragen durchführen und sie schnell auf einen zentralen Speicher übertragen. Microsoft behauptet, Importgeschwindigkeiten von bis zu 200 MB/s pro Knoten zu erreichen, und dass Abfragen von über eine Milliarde von Datensätzen sogar weniger als eine Sekunde dauern. Daten können mithilfe herkömmlicher Techniken oder über mehrere Zeitreihen hinweg analysiert werden. Letzteres beinhaltet außerdem eine vollständig verwaltete Plattform, auf der Sie lediglich Ihre Daten und Abfragen berücksichtigen müssen.

Das Arbeiten mit Cloud-Skalierung kann die Erzeugung großer Datenmengen bedeuten, die mit herkömmlichen Tools nur schwer zu analysieren sind. Wie Cosmos DB ist der Azure Data Explorer ein weiteres Beispiel dafür, wie Microsoft seinen Kunden immer mehr eigene interne Tools zur Verfügung stellt. Aufgrund der Skalierung einer öffentlichen Cloud musste Microsoft neue Tools entwickeln, um Problemen beim Umgang mit Terabytes von Daten und dem Verwalten riesiger Rechenzentren entgegenzuwirken. Azure Data Explorer führt diese Elemente zusammen und verwandelt sie in ein einziges Tool, das mit Ihren Protokolldateien und Streaming-Daten arbeiten kann.

Der ursprünglich unter dem Codenamen Kusto bekannte Azure Data Explorer ist die kommerzielle Version der Tools, die Microsoft zur Verwaltung seiner eigenen Protokolldaten in Azure verwendet. Im Jahr 2016 hat Microsoft mehr als eine Billion Ereignisse und täglich mehr als 600 TB an Daten verarbeitet – genug Daten, um das zugrunde liegende System gründlich zu testen. Wenn Sie nicht gerade alle IoT-Systeme für BP oder ein anderes großes Mineralölunternehmen betreiben, werden Sie vermutlich nicht so viele Daten verarbeiten müssen, doch es ist gut zu wissen, dass auch diese Option vorhanden ist.

Azure Data Explorer: Eine Abfrage-Engine für Cloud-Daten

Das Herzstück des Azure Data Explorers ist eine benutzerdefinierte Abfragemaschine mit einer eigenen Abfragesprache, die für die Arbeit mit großen Datenmengen optimiert ist und mit einer Mischung aus strukturierten und unstrukturierten Daten aus vielen Quellen arbeiten kann. Es ist ein schreibgeschütztes Tool, das besonders für die Arbeit mit Protokollen und spaltbasierten Speichertechnologien nützlich ist. Microsoft verwendet Elemente seiner Kusto-Abfragesprache in anderen Azure-Tools, einschließlich des Application Insights-Tools, das den Kern für die meisten Betriebsseiten von Azure DevOps bildet.

Bevor Sie irgendwelche Daten erfassen, beginnen Sie damit, ein Cluster mit den zugehörigen Datenbanken zu erstellen. Sobald alles an seinem Platz ist und die Daten empfangen werden, können Sie sie mithilfe einer Abfrage-Engine durchsuchen, die entweder als eigenständige Anwendung verfügbar ist oder im Azure-Portal gehostet wird. Das Hinzufügen der Engine zu einer vorhandenen Datenpipeline hat keine Auswirkungen auf Ihre Anwendungen. Dies ist nur eine weitere Verzweigung in Ihrer Pipeline, die die zur Verfügung gestellte Architektur von Azure für den Betrieb außerhalb Ihres Anwendungsflusses nutzt.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Manoj Raheja gibt einen Überblick über den Azure Data Explorer

Ein Teil Ihrer Datenpipeline zu sein und dabei außerhalb Ihrer Anwendungen zu bleiben, ist ein wichtiger Aspekt der Arbeit mit Azure Data Explorer. Es ist ein Tool für die spekulative Analyse Ihrer Daten; eines, das den Code, den Sie erstellen, mit Informationen versorgt, um die Abfrage zu optimieren oder neue Modelle zu entwickeln, die Teil Ihrer Plattform für maschinelles Lernen werden können. Durch die Abfragen werden Ihre Daten nicht verändert, und sie können mit anderen Benutzern geteilt werden. Dies macht es zu einem nützlichen Werkzeug für Data Science-Teams.

Die Verwendung des Azure Data Explorers mit Anwendungsdaten

Eine der nützlicheren Möglichkeiten, mit Azure Data Explorer zu arbeiten, ist die Verwendung von Event Hubs und Event Grid. Beginnen Sie mit der Erstellung einer Tabelle in Ihrer Data Explorer-Instanz und ordnen Sie sie der Struktur der JSON-Daten zu, die vom Event Hub verarbeitet werden. Sobald dies geschehen ist, verbinden Sie Ihren Event Hub-Feed mit einer Tabelle, indem Sie Ihre JSON-Zuordnung zum Ausfüllen der Daten verwenden. Des Weiteren müssen Sie außerdem alle verfügbaren Connection Strings einrichten, um die Verknüpfung zwischen Ihrem Event Hub und Ihrer Daten-Explorer-Tabelle zu autorisieren. Nach dem Ausführen werden Sie möglicherweise eine Weile warten müssen, bevor die Datenabfrage abgeschlossen ist, da der Aufnahmevorgang die Daten stapelt, bevor Sie in die Tabelle eingespeist werden.

Während die Daten in Ihre Daten-Explorer-Tabelle eingespeist werden, können Sie mit dem Erstellen von Abfragen beginnen. Verwenden Sie das Azure-Portal, um Ihre ersten Abfragen mit dem zugehörigen Tool zu erstellen. Wenn Sie keine eigenen Datenquellen erstellen möchten, können Sie auch mit einem der von Microsoft vorkonfigurierten Testcluster beginnen und diesen für Ihre Abfrageexperimente verwenden.

Um eine Tabelle abzufragen, starten Sie einfach eine Abfrage mit ihrem jeweiligen Namen und wenden anschließend Ihre Sortierkriterien an, bevor Sie nach den Daten filtern, die Sie verwenden möchten. Der Azure Portal-basierte Abfrage-Generator zeigt die Ergebnisse dann in einer Tabelle an. Bei komplexeren Abfragen können Sie auswählen, welche Elemente einer Tabelle Sie sich anzeigen lassen möchten. Der Befehl Recall ruft vorherige Abfragen auf, sodass Sie verschiedene Durchgänge mit denselben Daten miteinander vergleichen können.

Das Tool-Panel in der Spaltenansicht bietet noch mehr Abfrageoptionen, sodass Sie noch mehr Möglichkeiten haben, Ihre Daten zu filtern und sogar grundlegende Pivot-Tabellenoptionen anzuwenden. Wenn Sie die Datenanalysefunktionen von Excel verwendet haben, sind Sie mit diesem Werkzeug bereits sehr vertraut, um schnellstmöglich interessante Datenpunkte zu finden, die eine tiefere Analyse ermöglichen. Der Abfrage-Generator enthält auch Tools für die grundlegende Visualisierung der Ergebnisse. Dabei können Sie aus einer Reihe von Diagrammtypen auswählen.

Sie sind nicht darauf beschränkt, den Portal Query Builder zu verwenden, da Microsoft mittlerweile auch eine Python-Bibliothek veröffentlicht hat, die sich speziell an Datenwissenschaftler richtet. Mit Python, einem wichtigen Tool für maschinelles Lernen, können Sie andere Tools wie die Anaconda-Analyseumgebung und Jupyter Notebooks verwenden, um mit Ihren Azure Data Explorer-Datensätzen zu arbeiten. Datenwissenschaftler sind nicht die einzige Zielgruppe für den Azure Data Explorer. Es gibt auch einen Anschluss an Power BI für Geschäftsanalysten.

*Simon Bisson ist Kolumnist und schreibt unter anderem für InfoWorld.com


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*