10 Dinge, die Sie über Hadoop wissen sollten

Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen 10 Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen. [...]

IBM GENERAL PARALLEL FILE SYSTEM IM BIG DATA-EINSATZ

IBM General Parallel File System im Big Data-Einsatz Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen. (c) Thomas Joos

Das IBM General Parallel File System (GPFS) ist ein spezielles Dateisystem von IBM, welches auch in Hadoop-Clustern zum Einsatz kommt. Diese verwenden oft das Hadoop File System (HDFS), können aber auch GPFS nutzen. Diese beiden Dateisystems können große Datenmengen enorm schnell verarbeiten und sind daher anderen Dateisystemen überlegen. Vorteil von GPFS ist zum Beispiel der schnelle Zugriff auf sehr große Dateien. Die Daten werden auf hunderte oder tausende Clusterknoten gespiegelt und verteilt, bleiben aber dennoch zugreifbar.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen verschiedene Technologien einsetzen, zum Beispiel SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen sparen und alte Dateien auf langsamere Datenträger. Das ist bei der Verarbeitung mit Hadoop besonders wichtig.

HADOOP IN AMAZON WEB SERVICES, GOOGLE CLOUD PLATFORM UND RACKSPACE

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace Hadoop können Sie auch in Amazon Web Services betreiben. (c) Thomas Joos

Neben Microsoft Azure HDInsight, lassen sich Hadoop-Cluster auch in Amazon Web Services (AWS) betreiben. Nutzen Sie AWS, werden die Daten des Hadoop-Clusters im AWS-Speicherdienst S3 abgelegt. Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Hadoop kann aber auch auf der Google Cloud Platform betrieben werden.

DIE WICHTIGSTEN HADOOP-DISTRIBUTIONEN
Neben den Möglichkeiten Hadoop in Microsoft Azure HDInsight oder Amazon Web Services zu betreiben, können Sie natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden Anbieter:

  • Hortonworks Data Platform
  • Cloudera
  • MapR

HADOOP ERWEITERN – YARN UND CO.

Hadoop erweitern – YARN und Co. Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. (c) Thomas Joos

Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. Beispiele dafür sind Hadoop YARN und Apache Hive. Entwickler können mit Hive direkt die Daten abfragen, die in HDFS gespeichert sind.

Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Bei Yarn handelt es sich um eine Cluster-Verwaltungs-Technologie für Hadoop. Viele Big Data-Profis bezeichnen YARN auch als MapReduce 2.

Mit Apache ZooKeeper können Sie die Hadoop-Infrastruktur zentral steuern. Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools.

SICHERHEIT UND ÜBERWACHUNG IM HADOOP-CLUSTER – APACHE KNOX UND CHUKWA
Bei Apache Knox handelt es sich um ein REST API Gateway für Hadoop-Cluster. Die Hadoop-Erweiterung erhöht das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen.

Um die Hadoop-Infrastruktur zu überwachen, setzen Sie am besten auf Apache Chukwa. Die Lösung überwacht HDFS-Datenzugriffe und das MapReduce-Framework.

ORACLE, IBM UND CO. – HADOOP KOMMERZIELL ERWEITERN
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Die Daten lassen sich besser verwalten und bieten mehr Möglichkeiten zur Abfrage.

*Thomas Joos ist freiberuflicher IT-Consultant und seit 20 Jahren in der IT tätig.


Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*