27. März 2025

Datenmengen günstig analysieren

Einige Eigenschaften sind in allen Big-Data-Verfahren gleich: Sie nutzen kostengünstige Standard-Hardware, parallele Verarbeitung und speichern die Daten in einem nicht-relationalen Format. Hadoop ist dafür ein gutes Beispiel. [...]

Hadoop ist ein Open-Source-Framework vor allem für die Speicherung, Aufbereitung und Analyse von polystrukturierten großen Datenmengen. Zentrales Kennzeichen ist eine parallele Architektur. Die wichtigsten Bestandteile von Hadoop sind das Hadoop Distributed File System (HDFS) und der MapReduce-Algorithmus, der für eine parallele Verarbeitung sorgt. HDFS untergliedert die Files in Datenblöcke einer festen Größe und speichert sie redundant auf die in einem Cluster organisierten Server-Knoten. MapReduce teilt die gesamte zu untersuchende Datenmenge in kleine Einheiten auf, und diese werden dann in einer ersten Phase parallel und unabhängig voneinander bearbeitet, untersucht und als Zwischenergebnisse gespeichert. In den nächsten Schritten folgen dann, ebenfalls parallel, weitere Auswertungen und schließlich die Präsentation der Ergebnisse.

Wo einzelne Ressorts in den Unternehmen Hadoop bereits einsetzen, geht es beispielsweise um eine 360-Grad-Sicht auf Kunden, die Auswertung von Weblogs, von Maschinendaten aus der Fertigung oder von Sensordaten. Mit Hilfe von Hadoop können die Fachbereiche selbst – ohne dazu auf die IT-Abteilung angewiesen zu sein – diese nur wenig strukturierten Daten verarbeiten und analysieren.

JAVA ODER PIG LATIN

Eine der zentralen Fragen für die Verantwortlichen in den Fachbereichen ist, welche Aufgaben durch den Einsatz von Hadoop-Clustern gelöst werden können. Die generelle Antwort lautet: Im Prinzip lassen sich alle „berechenbaren“ Aufgaben mit Hadoop meistern. Eine der Möglichkeiten dabei ist, den dazu geeigneten Java-Programmcode zu erstellen. Manchmal ist das entsprechende Know-how in den Fachbereichen vorhanden. Ansonsten bieten IT-Dienstleister, wie beispielsweise CGI, die notwendige Unterstützung.

Als weitere Möglichkeit bietet sich der Einsatz der prozeduralen Hadoop-Erweiterung Apache Pig an. Sie wurde 2006 von Yahoo entwickelt, um nicht-hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Script-Sprache Pig Latin.

Sie soll, ähnlich wie dies die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, für IT-affine Mitarbeiter aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop deutlich vereinfachen. Pig Latin beschreibt die Verarbeitungsschritte, die das Pig-Latin-Framework dann in MapReduce-Jobs überführt. Eine weitere Option bietet Oracle Big Data SQL. Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Data Bases, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

LÖSUNGSSZENARIEN TESTEN UND WEITERENTWICKELN

Festzuhalten bleibt: Hadoop ist kein Ersatz für eine Data-Warehouse-Umgebung, wie sie von der IT-Abteilung betrieben, gepflegt und weiterentwickelt wird. Hadoop ergänzt vielmehr die Data-Warehouses. Während diese den strikten Regeln und Vorgaben einer unternehmensweiten IT-Governance folgen müssen, bietet eine Hadoop-Implementierung in einem Fachbereich mehr Spielräume in einer abgegrenzten Laborumgebung. Hier geht es traditionell um Exploration und ein interaktives Lernen.

So kann etwa ein Mobilfunkanbieter Netzwerkdaten auswerten, um die Service-Qualität in solchen Regionen zu verbessern, in denen es überdurchschnittlich hohe Abwanderungen von Kunden gab. Die Aufgabe hier ist es, Maßnahmen zu entwickeln und zu testen, um die Kundenbindungsrate zu steigern. Im Bereich der Vertriebsförderung analysiert ein Automobilhersteller die Daten aus dem Pkw-Konfigurator im Web. Die Ergebnisse dienen als Grundlage, um gemeinsam mit Händlern die Verkaufsquote zu verbessern.

Die für Service zuständige Abteilung des Automobilherstellers wertet Daten zu Garantiefällen aus. Da es in der Vergangenheit deutliche Kritik von Kunden gab, die sich auch in verschiedenen Web-Foren widerspiegelte, ist es die Aufgabe des Projekts, Lösungen zu finden, um gezielt die Produktqualität zu verbessern.

In all diesen Anwendungsszenarien unterstützt Hadoop die Fachbereiche dabei, das vorhandene, eher gering strukturierte Datenmaterial mit Hilfe von Hypothesen auszuwerten und Lösungsszenarien zu entwickeln, die dann getestet, weiterentwickelt oder verworfen werden. Zeigt sich im Laufe der Zeit, dass sich daraus standardisierte Verfahren und Prozesse ergeben, finden sie Eingang in die IT-Governance und die IT-Abteilung ist dann dafür zuständig.

Knut Veltjens|CGI

uf der WWDC können sich Apple-Entwickler über die neuesten Softwaretrends und Apps informieren. So ist etwa Fotografie auf dem Handy ohne starke Unterstützung von Software, die die Fotos entsprechend optimiert, nicht möglich. (c) Apple

Komplett online: Apples Worldwide Developers Conference

26. März 2025 Klaus Lorbeer

Die jährliche Worldwide Developers Conference (WWDC) wird dieses Jahr vom 9. bis 13. Juni online veranstaltet. Für Entwickler und Studierende ist das event kostenlos und es wird am 9. Juni die Möglichkeit geben, persönlich bei einer speziellen Veranstaltung im Apple Park mit dabei zu sein. […]

Webhosting für KI-Anwendungen

26. März 2025 Daniel Bader *

Künstliche Intelligenz benötigt enorme Leistungsressourcen. Deshalb gibt es spezielle Hoster, die diesen Performancehunger abdecken. Lesen Sie hier, was es dabei zu beachten gibt. […]

Bedrohung durch Phishing-as-a-Service-Angriffe steigt massiv

26. März 2025

In den ersten zwei Monaten des Jahres 2025 erkannten und blockierten die Erkennungssysteme von Barracuda Networks mehr als eine Million Phishing-Angriffe von bekannten Phishing-as-a-Service-Plattformen. Viele davon zielen auf beliebte Cloud-Plattformen wie Microsoft 365 ab. […]

Smarte Roboter erobern die Fabrik

26. März 2025

Die intelligente Fabrik ist längst Realität – und auch der „unwissende“ Roboter von einst gehört mehr und mehr der Vergangenheit an. Eine solche Fabrik zeichnet sich durch die Kombination verschiedener Technologien aus, die nahtlos ineinandergreifen. NTT DATA erklärt, welche Rolle KI und Edge Computing dabei spielen. […]

Warum Backups alleine ERP-Systeme nicht vor Cyberangriffen schützen

26. März 2025

Backups sind zweifellos ein essenzieller Bestandteil jeder IT-Sicherheitsstrategie. Gleichzeitig vermitteln sie oft eine trügerische Sicherheit. Volker Eschenbächer von Onapsis, Anbieter für ERP-Security, schätzt die aktuelle Bedrohungslage ein und beleuchtet, welche Maßnahmen Unternehmen neben klassischen Backups noch ergreifen sollten, um sich zu schützen. […]

5 Kriterien für die Auswahl eines Incident-Management-Tools

26. März 2025

Ein einziger IT-Ausfall kann Unternehmen Millionen kosten und das Vertrauen der Kunden erschüttern. CIOs stehen daher vor der Herausforderung, das richtige Incident-Management-Tool für das eigene Unternehmen auszuwählen. […]

Die Rolle des modernen CIO

26. März 2025

Die Aufgabe des CIO besteht heute nicht mehr nur in der Aufrechterhaltung des IT-Betriebs. Er ist vor allem auch für die Umsetzung der strategischen Geschäftsziele verantwortlich. […]

Die Augie Industrial GenAI Suite bietet unter Einsatz von generativer KI Unterstützung in sämtlichen operativen Bereichen der Industrie, von Produktion über Montage bis Wartung. (c) Augmentir

Augmentir expandiert und bringt KI-Integration in Industrieprozesse

26. März 2025 pi/cb

Augmentir erweitert seine KI-basierte Connected-Worker-Plattform um neue Features. Der Fokus liegt auf Automatisierung, Zusammenarbeit und Echtzeit-Datenintegration für die Industrie. […]

Björn Orth, Geschäftsführer der VENDOSOFT GmbH & Co. KG (c) VENDOSOFT

Warum Unternehmen auf hybride Lizenz-Modelle setzen sollten

25. März 2025 Wolfgang Franz

Microsofts kontinuierliche Preiserhöhungen stellen das Cloud-only-Modell zunehmend infrage – und bringen viele Unternehmen zum Umdenken. Eine Kombination aus Cloud-Diensten und klassischer On-Premises-Software bietet laut Björn Orth, Geschäftsführer der VENDOSOFT GmbH & Co. KG, deutlich mehr Flexibilität und Kostenkontrolle. […]

Datenmengen günstig analysieren

Einige Eigenschaften sind in allen Big-Data-Verfahren gleich: Sie nutzen kostengünstige Standard-Hardware, parallele Verarbeitung und speichern die Daten in einem nicht-relationalen Format. Hadoop ist dafür ein gutes Beispiel. [...]

JAVA ODER PIG LATIN

LÖSUNGSSZENARIEN TESTEN UND WEITERENTWICKELN

Mehr Artikel

Komplett online: Apples Worldwide Developers Conference

Webhosting für KI-Anwendungen

Bedrohung durch Phishing-as-a-Service-Angriffe steigt massiv

Smarte Roboter erobern die Fabrik

Warum Backups alleine ERP-Systeme nicht vor Cyberangriffen schützen

5 Kriterien für die Auswahl eines Incident-Management-Tools

Die Rolle des modernen CIO

Augmentir expandiert und bringt KI-Integration in Industrieprozesse

Warum Unternehmen auf hybride Lizenz-Modelle setzen sollten

Be the first to comment

Leave a Reply Antworten abbrechen