27. Dezember 2024

Trend-Thema Hadoop: Was es kann und wozu man es braucht.

Der IDC Data Hub beleuchtet das Trend-Thema Big Data von allen Seiten, hierbei darf Hadoop auf keinen Fall fehlen. Warum die wichtigste Big Data-Konferenz den Hadoop-Technologien einen ganzen Track widmet, erfahren Sie hier. [...]

Wenn man über Big Data spricht, meint man damit oft gleichzeitig auch Hadoop. Hadoop ist eine der zentralen Technologien im Big Data Umfeld. IDC hat in den letzten Monaten mehrere Umfragen zu Hadoop gemacht und mit den bedeutendsten heimischen Unternehmen gesprochen – mit dem Resultat, dass Hadoop nicht als wichtig empfunden wird, sondern dass mittlerweile sehr viele Pilotprojekte mit Hadoop durchgeführt werden. Doch was ist dieses Hadoop eigentlich? Und was kann man damit machen?

Hadoop ist keine Software, welche man mithilfe eines Setup-Assistenten installiert. Es handelt sich vielmehr um eine Plattform für viele verschiedene Dienste. Erste große Anwendungen liefen bei Yahoo, wo Hadoop für Map/Reduce Jobs benutzt wurde. Mittlerweile muss man nicht mehr zwangsweise Map/Reduce Jobs selbst schreiben, denn Hadoop bietet eine ganze Reihe an abstrakten Sprachen, welche Skripte wiederum in Map/Reduce Umfragen übersetzen. Die folgende Abbildung soll darstellen, was aktuell wichtige Projekte im Hadoop-Umfeld sind. Der Hadoop-Stack lässt sich in fünf große Blöcke einteilen, welche wiederum mehrere Teilprojekte haben.
Der erste Block kümmert sich um das Cluster-Management. Hier sind Hadoop-Projekte vertreten, welche die primäre Aufgabe haben, grundlegende Infrastrkuturbereiche abzudecken. Ambari ist hierbei für die Provisionierung, Überwachung und Management, ZooKeeper für die Koordinierung im Cluster und Oozie für das Workflow-Scheduling zuständig.
Eine Ebene höher befinden sich wichtige Dienste wie HDFS (Hadoop Distributed File System) und die gemeinsam genutzten Bibliotheken. YARN ist die Ausführungsebene, welche sich um die Ausführung der Map/Reduce Jobs kümmert und Ressourcen verwaltet.
Der nächste Layer besteht aus dem Datenspeicher, Datenzugriff und „Data Science”. Wichtige Projekte sind hier HBase, welches eine sehr beliebte NoSQL-Datenbank zum Speichern großer Datenmengen darstellt. Für den Datenzugriff wird oftmals Apache Pig und Apache Hive verwendet. Apache Hive ist vor allem für SQL-Entwickler sehr interessant, da das Konzept von Hive auf SQL basiert (wobei viele Elemente von SQL nicht unterstützt werden). Apache Pig wiederum bietet eine „Datenflusssprache” und ermöglicht es, Daten zu transformieren. Auf diesen Layer gibt es noch eine ganze Menge weiterer Projekte wie etwa Apache Storm, welches vor allem für Echtzeitanalysen sehr gut geeignet ist. Storm wurde von Twitter entwickelt, um die „Trending Topics” anzuzeigen. Aber auch andere Teilprojekte wie etwa Tez, Mahout, Giraph und Spark bieten sehr interessante Möglichkeiten,um mit großen und sich schnell bewegenden Datenquellen zu arbeiten.
Der vorletzte Layer bietet zahlreiche Projekte für die Datenintegration. Müssen Daten importiert werden, so sind Projekte auf diesem Layer hilfreich. Der letzte Layer bietet eine UI an – diese kommt vom führenden Hadoop-Distributor Cloudera und heißt „Hue”. Dieses Projekt macht die Arbeit mit Hadoop wesentlich einfacher.
Falls Sie dieser Kurzüberblick über das Hadoop-Projekt neugierig gemacht hat, verpassen Sie auf keinen Fall die IDC Data Hub Conference am 21. Mai: http://idcdatahub.com/

Dr. Roman Stiftner, Präsident der BVL (c) Gary Milano

BVL beendet Kooperation mit ELA und stärkt ihr Engagement für die EU und die globale Logistik

24. Dezember 2024 pi/wf

Die Bundesvereinigung Logistik Österreich (BVL) hat beschlossen, ihre Mitgliedschaft in der European Logistics Association (ELA) zum 31. Dezember 2024 zu beenden. Diese Entscheidung spiegelt eine strategische Neuausrichtung wider, die darauf abzielt, Effizienz, Transparenz und eine wirkungsvolle Vertretung logistischer Interessen in Europa zu fördern. […]

„Agentic Automation“ ermöglicht es KI-Agenten, Wissensarbeiter zuverlässig zu unterstützen und Prozesse effizienter zu gestalten. (c) Pexels

2025: Der Durchbruch der KI-Agenten im Unternehmensalltag

23. Dezember 2024 pi/cb

2025 markieren KI-Agenten den nächsten Meilenstein in der Automatisierung: Mit Agentic AI werden Wissensarbeitende unterstützt und Arbeitsstrukturen neu definiert. Welche Chancen und Herausforderungen erwarten Unternehmen? […]

Cybersicherheit bei kritischen Infrastrukturen im Jahr 2025

23. Dezember 2024 Holger Fischer *

Strengere und weitreichende Compliance-Anforderungen werden die europäische Landschaft dominieren, da Unternehmen daran arbeiten, die NIS2-Richtlinie einzuhalten. Diese Richtlinie erweitert den Umfang kritischer Infrastruktursektoren und erhöht die Strafen, wodurch Cybersicherheit für mehr Unternehmen zu einer rechtlichen Notwendigkeit wird. […]

Samsung OLED-TV S95D im Test

23. Dezember 2024 Daniel Bader *

Extrem in allem: Samsungs brandneuer OLED-TV S95D ist ultradünn, ultraschmall gebaut und löst ultrascharf auf. Wir haben das neue OLED-Spitzenmodell mit mattem Bildschirm (!) und 65-Zoll-Bilddiagonale getestet. […]

Der Einfluss von 5G auf cloudbasiertes Fuhrparkmanagement

23. Dezember 2024 Simon Müller *

Die Einführung von 5G beeinflusst das cloudbasierte Fuhrparkmanagement erheblich. Echtzeitdatenübertragung zwischen Fahrzeugen und der Cloud ermöglicht eine präzise Betriebsoptimierung, die für Unternehmen unverzichtbar ist. […]

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

23. Dezember 2024

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Trend-Thema Hadoop: Was es kann und wozu man es braucht.

Der IDC Data Hub beleuchtet das Trend-Thema Big Data von allen Seiten, hierbei darf Hadoop auf keinen Fall fehlen. Warum die wichtigste Big Data-Konferenz den Hadoop-Technologien einen ganzen Track widmet, erfahren Sie hier. [...]

Mehr Artikel

BVL beendet Kooperation mit ELA und stärkt ihr Engagement für die EU und die globale Logistik

2025: Der Durchbruch der KI-Agenten im Unternehmensalltag

Cybersicherheit bei kritischen Infrastrukturen im Jahr 2025

Samsung OLED-TV S95D im Test

Der Einfluss von 5G auf cloudbasiertes Fuhrparkmanagement

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Große Sprachmodelle und die Frage der Data Security

Punkt. MC02: Das Smartphone für maximale Datensouveränität

spusu gewinnt 2024 150.000 Neukunden

Be the first to comment

Leave a Reply Antworten abbrechen