25. April 2025

10 Dinge, die Sie über Hadoop wissen sollten

Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen 10 Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen. [...]

IBM GENERAL PARALLEL FILE SYSTEM IM BIG DATA-EINSATZ

IBM General Parallel File System im Big Data-Einsatz Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen. (c) Thomas Joos

Das IBM General Parallel File System (GPFS) ist ein spezielles Dateisystem von IBM, welches auch in Hadoop-Clustern zum Einsatz kommt. Diese verwenden oft das Hadoop File System (HDFS), können aber auch GPFS nutzen. Diese beiden Dateisystems können große Datenmengen enorm schnell verarbeiten und sind daher anderen Dateisystemen überlegen. Vorteil von GPFS ist zum Beispiel der schnelle Zugriff auf sehr große Dateien. Die Daten werden auf hunderte oder tausende Clusterknoten gespiegelt und verteilt, bleiben aber dennoch zugreifbar.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen verschiedene Technologien einsetzen, zum Beispiel SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen sparen und alte Dateien auf langsamere Datenträger. Das ist bei der Verarbeitung mit Hadoop besonders wichtig.

HADOOP IN AMAZON WEB SERVICES, GOOGLE CLOUD PLATFORM UND RACKSPACE

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace Hadoop können Sie auch in Amazon Web Services betreiben. (c) Thomas Joos

Neben Microsoft Azure HDInsight, lassen sich Hadoop-Cluster auch in Amazon Web Services (AWS) betreiben. Nutzen Sie AWS, werden die Daten des Hadoop-Clusters im AWS-Speicherdienst S3 abgelegt. Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Hadoop kann aber auch auf der Google Cloud Platform betrieben werden.

DIE WICHTIGSTEN HADOOP-DISTRIBUTIONEN
Neben den Möglichkeiten Hadoop in Microsoft Azure HDInsight oder Amazon Web Services zu betreiben, können Sie natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden Anbieter:

Hortonworks Data Platform

Cloudera

MapR

HADOOP ERWEITERN – YARN UND CO.

Hadoop erweitern – YARN und Co. Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. (c) Thomas Joos

Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. Beispiele dafür sind Hadoop YARN und Apache Hive. Entwickler können mit Hive direkt die Daten abfragen, die in HDFS gespeichert sind.

Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Bei Yarn handelt es sich um eine Cluster-Verwaltungs-Technologie für Hadoop. Viele Big Data-Profis bezeichnen YARN auch als MapReduce 2.

Mit Apache ZooKeeper können Sie die Hadoop-Infrastruktur zentral steuern. Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools.

SICHERHEIT UND ÜBERWACHUNG IM HADOOP-CLUSTER – APACHE KNOX UND CHUKWA
Bei Apache Knox handelt es sich um ein REST API Gateway für Hadoop-Cluster. Die Hadoop-Erweiterung erhöht das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen.

Um die Hadoop-Infrastruktur zu überwachen, setzen Sie am besten auf Apache Chukwa. Die Lösung überwacht HDFS-Datenzugriffe und das MapReduce-Framework.

ORACLE, IBM UND CO. – HADOOP KOMMERZIELL ERWEITERN
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Die Daten lassen sich besser verwalten und bieten mehr Möglichkeiten zur Abfrage.

*Thomas Joos ist freiberuflicher IT-Consultant und seit 20 Jahren in der IT tätig.

1 2

In Großbritannien etwa nutzten Ende 2024 rund 50 Prozent der Erwachsenen digitale Erstbanken, Tendenz steigend. (c) Pexels

Unbricking the Wall: Neue Wege der Software-Governance in Großbanken

25. April 2025 Wolfgang Franz

Trotz erheblicher Investitionen in DevOps und CI/CD stoßen viele Banken bei der Softwarebereitstellung immer noch auf ein zentrales Hindernis: manuelle Governance-Prozesse. Diese bremsen nicht nur die Innovationsgeschwindigkeit, sondern bergen auch Compliance-Risiken. ITWelt.at hat sich eine aktuelle Kosli-Studie zu diesem Thema angesehen. […]

"Sammlung allerhand auserlesener Reponsorum […]", Johann Hieronymus Hermann, 1736 (c) Österreichische Nationalbibliothek

Kulturpool – digitalisiertes Kulturerbe

25. April 2025 pi/kdl

Einer der Vorteile der Digitalisierung ist, dass Kulturgüter zunehmend auch in digitalisierter Version für alle online zugänglich vorliegen. So versammelt das zentrale Suchportal für digitalisiertes Kulturerbe in Österreich, Kulturpool, 1,6 Millionen Objekten, darunter historische Handschriften, Bücher, Kunstwerke und vieles mehr. Einer der Hauptbeiträger von Kulturpool ist die Österreichische Nationalbibliothek. […]

IT ist nicht gleich IT-Security: Warum eine fachlich überschätzte IT-Abteilung zum Problem wird

25. April 2025

Selbst eine leistungsfähige IT-Abteilung mit qualifizierten Fachkräften deckt oft nicht automatisch den hochspezialisierten Bereich der Cybersicherheit ab. Fehlen spezifisches Knowhow und gezielte Ressourcen im Bereich IT-Security sind Unternehmen trotz starker IT-Infrastruktur anfällig für Cyberangriffe. […]

Unternehmen trotz verbesserter Schutzmaßnahmen noch immer Opfer von Cyberattacken

25. April 2025

Eine neue Studie von Veeam zeigt, dass die gemessenen Raten an Datenwiederherstellung angesichts fortschrittlicher Cyber-Bedrohungen alarmierend sind. Das unterstreicht den dringenden Bedarf an robusten Strategien für die Ausfallsicherheit von Daten. […]

Camunda veröffentlicht Buch zum Thema Enterprise Process Orchestration

25. April 2025

Camunda-Mitbegründer und Chief Technologist Bernd Rücker hat in Zusammenarbeit mit Principal Practice Strategist Leon Strauch einen praxisorientierten Leitfaden zur Nutzung von Prozessorchestrierung und Automatisierung geschrieben. […]

Cybercrime im Alltag: wie Betrüger analoge Wege nutzen

25. April 2025 Christian Reinhardt *

Der Begriff „Quishing“ – ein Kunstwort aus QR-Code und Phishing – steht exemplarisch für eine neue Form digitaler Täuschung im realen Raum. Cyberkriminelle platzieren dabei täuschend echte QR-Codes in öffentlich zugänglichen Orten, etwa auf Parkautomaten oder in öffentlichen Verkehrsmitteln. […]

YouTube optimal nutzen

25. April 2025 Andreas Fischer *

An der Videoplattform von Google kommt heute fast niemand vorbei. Auf YouTube finden Sie abertausende Videos aus verschiedensten Bereichen. Wir zeigen, wie Sie noch mehr aus der Webseite herausholen und sie optimal nutzen. […]

Jörg Hesske, Regional Vice President and General Manager Central & Eastern Europe bei Denodo. (c) Denodo

Das Versicherungswesen kommt nicht mehr ohne logisches Datenmanagement aus

24. April 2025 Jörg Hesske*

Drei Gründe, warum (B2B-) Versicherungsunternehmen auf Dauer nicht um das logische Datenmanagement herumkommen. […]

Udo Würtz, Fellow und Chief Data Officer, Fujitsu European Platform Business (c) Fujitsu

Fujitsu Private GPT: Die Kontrolle bleibt im Haus

24. April 2025 Christof Baumgartner

Mit der zunehmenden Verbreitung generativer KI-Lösungen stehen Unternehmen vor neuen Herausforderungen. Datenschutz, Kostenkontrolle und regulatorische Anforderungen rücken in den Fokus. Fujitsu hat mit „Private GPT“ eine Lösung entwickelt, die speziell auf die Bedürfnisse von Unternehmen zugeschnitten ist und höchste Sicherheitsstandards erfüllt. ITWelt.at hat darüber mit Udo Würtz, Fellow und Chief Data Officer, Fujitsu European Platform Business, gesprochen. […]

Be the first to comment

Leave a Reply Antworten abbrechen

Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen 10 Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen. [...]

Mehr Artikel

Be the first to comment

Leave a Reply Antworten abbrechen