Die wichtigsten Big-Data-Tools aus der Cloud

Für Big-Data-Analysen brauchen Unternehmen nicht unbedingt einen eigenen Hadoop-Cluster. Wir stellen die wichtigsten Tools aus der Cloud vor, mit denen sich große Datenmengen verwalten, strukturieren und analysieren lassen. [...]

AMAZON WEB SERVICES (AWS)
Mit Elastic MapReduce (EMR) bietet Amazon Web Services einen umfangreichen Big-Data-Service auf der hauseigenen Cloud-Plattform. Die dort verfügbaren AMIs (Amazon Machine Image) enthalten bereits ein bootfähiges Linux-Betriebssystem, Hadoop und weitere Software, die zum Betrieb des Clusters notwendig ist. Die Version 4.2.0 unterstützt neben Hadoop auch Ganglia, Hive, Hue, Pig, Mahout und Spark. Als Datenbanken stehen neben der NoSQL-Lösung DynamoDB und der relationalen Datenbank RDS auch das Big-Data-Warehouse Redshift zur Verfügung, das auf PostgreSQL basiert.

Mit Kinesis bietet der Hersteller zudem einen Service zur Echtzeitanalyse großer Mengen von Streaming-Daten; über AWS IoT (Beta) lassen sich Sensoren, Aktoren, Embedded Devices oder Wearables mit der Cloud-Plattform verbinden. Ergänzt wird das Angebot durch mehr als 300 Applikationen von Drittanbietern, die über den AWS Marketplace abgerufen werden können.

Beim Aufsetzen eines Hadoop-Clusters in Amazon EMR kann man unter anderem die Cluster-Größe, die Software-Version und die installierenden Applikationen wählen. (c) computerwoche.de

Eine Hadoop-Instanz lässt sich auch manuell auf Knoten der Elastic Compute Cloud (EC2) einrichten. Zur Speicherung der Initialdaten nutzt man sinnvoller Weise Amazon S3, da der Datentransfer zwischen S3 und EC2 kostenlos ist. Dort legt man auch die Ergebnisse ab, bevor der Cluster heruntergefahren wird. Temporäre Daten hält man dagegen besser im Hadoop Distributed File System (HDFS) vor.

Amazon bietet eine 12-monatige Testphase, in der ein Kunde unter anderem 750 Stunden pro Monat eine EC2-Instanz (t2.micro-Instance) und 5 GB Standard-S3-Speicher nutzen kann. Auch einige Big-Data-Anwendungen wie DynamoDB, AWS IoT und Redshift lassen sich kostenlos testen, nicht aber EMR.

AMAZON WEB SERVICES – LEISTUNGSUMFANG BIG-DATA-ANALYSE

  • Amazon Elastic MapReduce (EMR): Hadoop und zahlreiche Big-Data-Frameworks als Service (Hive, Hue, Pig, Hbase, Impala, Mahout, Spark)
  • Amazon Kinesis: Echtzeitanalyse von Streaming-Daten
  • Amazon Machine Learning: Erstellung von Vorhersagemodellen
  • Amazon Elasticsearch Service: Suche, Protokollanalyse und Datenvisualisierung
  • AWS IoT (Beta): Kommunikation mit Smart Devices
  • diverse Datenbanken / Warehouses (DynamoDB, RDS, Redshift)

AMAZON WEB SERVICES – FAZIT

Pro

  • kostenloser Datentransfer zwischen Speicher (S3) und Computing-Plattform (EC2)
  • wichtigste Systeme vorinstalliert
  • Hadoop-Cluster können bedarfsorientiert auf- und auch wieder abgebaut werden

Contra

  • manuelle Hadoop-Installation aufwendig
  • wenn Daten in S3 statt in HDFS gespeichert werden, ist die Latenz recht hoch
  • EMR nicht im kostenlosen AWS-Kontingent enthalten


Mehr Artikel

No Picture
News

Cybersicherheitsbudgets werden falsch priorisiert

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

News

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

No Picture
News

Die Wi-Fi-Standards

Die Welt der Wi-Fi-Standards wirkt kompliziert. Es gibt Wi-Fi 5, Wi-Fi 6 und zudem immer dieses «802.11wasauchimmer». Welcher Standard kann was? Wir erklären Ihnen die aktuellen Wi-Fi-Standards und verraten, was diese taugen. […]

News

Generative KI als Sicherheitsrisiko

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*