10 Dinge, die Sie über Hadoop wissen sollten

Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen 10 Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen. [...]

IBM GENERAL PARALLEL FILE SYSTEM IM BIG DATA-EINSATZ

IBM General Parallel File System im Big Data-Einsatz Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen. (c) Thomas Joos

Das IBM General Parallel File System (GPFS) ist ein spezielles Dateisystem von IBM, welches auch in Hadoop-Clustern zum Einsatz kommt. Diese verwenden oft das Hadoop File System (HDFS), können aber auch GPFS nutzen. Diese beiden Dateisystems können große Datenmengen enorm schnell verarbeiten und sind daher anderen Dateisystemen überlegen. Vorteil von GPFS ist zum Beispiel der schnelle Zugriff auf sehr große Dateien. Die Daten werden auf hunderte oder tausende Clusterknoten gespiegelt und verteilt, bleiben aber dennoch zugreifbar.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen verschiedene Technologien einsetzen, zum Beispiel SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen sparen und alte Dateien auf langsamere Datenträger. Das ist bei der Verarbeitung mit Hadoop besonders wichtig.

HADOOP IN AMAZON WEB SERVICES, GOOGLE CLOUD PLATFORM UND RACKSPACE

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace Hadoop können Sie auch in Amazon Web Services betreiben. (c) Thomas Joos

Neben Microsoft Azure HDInsight, lassen sich Hadoop-Cluster auch in Amazon Web Services (AWS) betreiben. Nutzen Sie AWS, werden die Daten des Hadoop-Clusters im AWS-Speicherdienst S3 abgelegt. Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Hadoop kann aber auch auf der Google Cloud Platform betrieben werden.

DIE WICHTIGSTEN HADOOP-DISTRIBUTIONEN
Neben den Möglichkeiten Hadoop in Microsoft Azure HDInsight oder Amazon Web Services zu betreiben, können Sie natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden Anbieter:

  • Hortonworks Data Platform
  • Cloudera
  • MapR

HADOOP ERWEITERN – YARN UND CO.

Hadoop erweitern – YARN und Co. Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. (c) Thomas Joos

Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. Beispiele dafür sind Hadoop YARN und Apache Hive. Entwickler können mit Hive direkt die Daten abfragen, die in HDFS gespeichert sind.

Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Bei Yarn handelt es sich um eine Cluster-Verwaltungs-Technologie für Hadoop. Viele Big Data-Profis bezeichnen YARN auch als MapReduce 2.

Mit Apache ZooKeeper können Sie die Hadoop-Infrastruktur zentral steuern. Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools.

SICHERHEIT UND ÜBERWACHUNG IM HADOOP-CLUSTER – APACHE KNOX UND CHUKWA
Bei Apache Knox handelt es sich um ein REST API Gateway für Hadoop-Cluster. Die Hadoop-Erweiterung erhöht das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen.

Um die Hadoop-Infrastruktur zu überwachen, setzen Sie am besten auf Apache Chukwa. Die Lösung überwacht HDFS-Datenzugriffe und das MapReduce-Framework.

ORACLE, IBM UND CO. – HADOOP KOMMERZIELL ERWEITERN
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Die Daten lassen sich besser verwalten und bieten mehr Möglichkeiten zur Abfrage.

*Thomas Joos ist freiberuflicher IT-Consultant und seit 20 Jahren in der IT tätig.


Mehr Artikel

News

KI in der Softwareentwicklung

Der “KI Trend Report 2025” von Objectbay liefert Einblicke, wie generative KI entlang des Software Engineering Lifecycle eingesetzt wird. Dafür hat das Linzer Softwareentwicklungs-Unternehmen 9 KI-Experten zu ihrer Praxiserfahrung befragt und gibt Einblicke, wie der Einsatz von KI die IT-Branche verändert wird. […]

News

F5-Studie enthüllt Lücken im Schutz von APIs

APIs werden immer mehr zum Rückgrat der digitalen Transformation und verbinden wichtige Dienste und Anwendungen in Unternehmen. Gerade im Zusammenhang mit kommenden KI-basierten Bedrohungen zeigt sich jedoch, dass viele Programmierschnittstellen nur unzureichend geschützt sind. […]

News

VINCI Energies übernimmt Strong-IT

VINCI Energies übernimmt Strong-IT in Innsbruck und erweitert damit das Leistungsspektrum seiner ICT-Marke Axians. Strong-IT schützt seit mehr als zehn Jahren Unternehmen gegen digitale Bedrohungen, während Axians umfassende IT-Services einbringt. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*