Die wichtigsten Big-Data-Tools aus der Cloud

Für Big-Data-Analysen brauchen Unternehmen nicht unbedingt einen eigenen Hadoop-Cluster. Wir stellen die wichtigsten Tools aus der Cloud vor, mit denen sich große Datenmengen verwalten, strukturieren und analysieren lassen. [...]

GOOGLE CLOUD PLATFORM
Das Google-Angebot an Big-Data-Services ist sehr umfangreich. Neben Open-Source-Lösungen wie Hadoop gehören dazu auch von Google selbst entwickelte Produkte wie BigQuery oder Dataflow. Für Hadoop bietet Google einen „Cloud Launcher„, mit dem sich nach Angaben des Providers in wenigen Minuten ein Cluster zur verteilten Big-Data-Analyse aufbauen lässt. Es besteht aus drei virtuellen Maschinen (n1-standard-4) inklusive 10 GB Boot Disk sowie drei Standardspeicherplatten mit 500 GB Kapazität. Die installierte Hadoop-Version 2.4.1 ist allerdings nicht ganz auf der Höhe der Zeit. Die neueste stabile Version von Hadoop hat die Versionsnummer 2.7.1.

In Google Dataflow werden Abfragen als sogenannte Pipelines definiert. (c) computerwoche.de

Weitere Big-Data-Lösungen lassen sich ebenfalls mit wenigen Klicks per Launcher installieren, darunter hoch skalierbare Datenbanken wie Cassandra, MongoDB und Redis sowie Elasticsearch, ein Open-Source-Tool zur Echtzeitanalyse. Elasticsearch ist aber nicht die einzige Möglichkeit für die Echtzeitanalyse auf der Google-Plattform: Eine weitere ist die Kombination aus dem Cluster-Manager Kubernetes, der In-Memory-Datenbank Redis und dem Abfragesystem BigQuery. In der zweiten Variante können Anwender Kubernetes und BigQuery mit Pub/Sub verknüpfen, einem Real-Time-Messaging-System. Für Logging-Zwecke lässt sich BigQuery schließlich auch noch mit dem Open-Source-Datensammler Fluentd kombinieren.

Mit dem Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten. (c) computerwoche.de

Im Jahr 2014 hat Google außerdem den Big-Data-Service „Cloud Dataflow“ gestartet. Google Cloud Dataflow erlaubt die Analyse großer Datenmengen sowohl im Batch- als auch im Streaming-Modus nahezu in Echtzeit. Der Code ist für beide Methoden gleich, die Entscheidung trifft der Entwickler durch die Wahl der Datenquelle. Die Programmierung ist sehr einfach. Für die Analyse muss ein Entwickler die logischen Schritte nur in eine Sequenz simpler Befehle übersetzen. Um zum Beispiel ein Zeitfenster für eine Streaming-Analyse zu definieren, genügt eine Zeile Code. Google verspricht außerdem eine Skalierbarkeit bis in den Exabyte-Bereich und eine nahtlose Integration in andere Systeme.

Die Google Cloud-Services lassen sich 60 Tage lang testen. Der Anbieter stellt dafür ein Guthaben von 300 Dollar zur Verfügung.

GOOGLE CLOUD PLATFORM – LEISTUNGSUMFANG BIG-DATA-ANALYSE

  • Cloud Launcher (Click to Deploy) unter anderem für Hadoop, Cassandra, MongoDB
  • Echtzeitanalyse mit Elasticsearch oder mit BigQuery in Kombination mit Kubernetes, Redis / Pub/Sub beziehungsweise Fluentd.
  • Cloud Dataflow: Managed Service für Batch- und Streaming-Analysen

GOOGLE CLOUD PLATFORM – FAZIT

Pro

  • Einfache Installation von Hadoop-Clustern und anderen Big-Data-Lösungen
  • Cloud Dataflow erlaubt auch weniger erfahrenen Anwendern den Einstieg in die Big-Data-Analyse

Contra

  • Im Cloud Launcher sind nicht immer die aktuellsten Versionen verfügbar


Mehr Artikel

News

Jahrelanges Katz-und-Maus-Spiel zwischen Hackern und Verteidigern

Sophos hat den umfangreichen Forschungsbericht „Pacific Rim“ veröffentlicht, der detailliert ein jahrelanges Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit mehreren staatlich unterstützten Cybercrime-Gruppierungen aus China beschreibt. Im Lauf der Auseinandersetzung entdeckte Sophos ein riesiges, gegnerisches Cybercrime-Ökosystem. […]

News

Salesforce kündigt autonome KI-Agenten an

Agentforce soll es Unternehmen ermöglichen, autonome KI-Agenten für zahlreiche Unternehmensfunktionen zu entwickeln und einzusetzen. So bearbeitet Agentforce beispielsweise selbstständig Kundenanliegen, qualifiziert Vertriebsleads und optimiert Marketingkampagnen. […]

News

Startschuss für neues Studium „Softwaretechnik & Digitaler Systembau“ am Biotech Campus Tulln

Mit einem fortschrittlichen Konzept und praxisnaher Ausrichtung ist der neue Bachelor-Studiengang „Softwaretechnik & Digitaler Systembau“ am Biotech Campus Tulln der Fachhochschule Wiener Neustadt erfolgreich gestartet. Unter der Leitung von Dominik Hölbling erwartet die Studierenden eine Ausbildung mit Schwerpunkt auf moderne Softwaretechnologien und innovative Digitalisierungslösungen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*