Hadoop: Große Datenmengen kostengünstig analysieren

Große, unstrukturierte Datenmengen verarbeiten mit günstiger Standard-Hardware, paralleler Verarbeitung und nicht-relationalen Formaten? Hadoop ist dafür ein gutes Beispiel. [...]

Als weitere Möglichkeit bietet sich der Einsatz der prozeduralen Hadoop-Erweiterung Apache Pig an. Sie wurde 2006 von Yahoo entwickelt, um nicht hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Script-Sprache Pig Latin. Sie soll, ähnlich wie dies die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, für IT-affine Mitarbeiter aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop vereinfachen. Pig Latin beschreibt die Verarbeitungsschritte, die das Pig-Latin-Framework dann in MapReduce-Jobs überführt. Eine weitere Option bietet Oracle Big Data SQL. Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Data Bases, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

LÖSUNGSSZENARIEN TESTEN UND WEITERENTWICKELN

Festzuhalten bleibt: Hadoop ist kein Ersatz für eine Data-Warehouse-Umgebung, wie sie von der IT-Abteilung betrieben, gepflegt und weiterentwickelt wird. Hadoop ergänzt vielmehr die Data-Warehouses. Während diese den strikten Regeln und Vorgaben einer unternehmensweiten IT-Governance folgen müssen, bietet eine Hadoop-Implementierung in einem Fachbereich mehr Spielräume in einer abgegrenzten Laborumgebung. Hier geht es traditionell um Exploration und ein interaktives Lernen.

So kann etwa ein Mobilfunkanbieter Netzwerkdaten auswerten, um die Service-Qualität in solchen Regionen zu verbessern, in denen es überdurchschnittliche hohe Abwanderungen von Kunden gab. Die Aufgabe hier ist es, Maßnahmen zu entwickeln und zu testen, um die Kundenbindungsrate zu steigern. Im Bereich der Vertriebsförderung analysiert ein Automobilhersteller die Daten aus dem Pkw-Konfigurator im Web. Die Ergebnisse dienen als Grundlage, um gemeinsam mit Händlern die Verkaufsquote zu verbessern. Die für Service zuständige Abteilung des Automobilherstellers wertet Daten zu Garantiefällen aus. Da es in der Vergangenheit deutliche Kritik von Kunden gab, die sich auch in verschiedenen Web-Foren wiederspiegelte, ist es Aufgabe des Projekts, Lösungen zu finden, um gezielt die Produktqualität zu verbessern.

In all diesen Anwendungsszenarien unterstützt Hadoop die Fachbereiche dabei, das vorhandene, eher gering strukturierte Datenmaterial mit Hilfe von Hypothesen auszuwerten und Lösungsszenarien zu entwickeln, die dann getestet, weiterentwickelt oder verworfen werden. Zeigt sich im Laufe der Zeit, dass sich daraus standardisierte Verfahren und Prozesse ergeben, finden sie Eingang in die IT-Governance und die IT-Abteilung ist dann dafür zuständig.

* Knut Veltjens ist Vice President / Practice Head Business Intelligence bei CGI in Sulzbach bei Frankfurt am Main


Mehr Artikel

Oliver Köth, Chief Technology Officer, NTT DATA DACH (c) NTT DATA
News

GenAI-Avatare als Webbereiter für die Zukunft

Der Blick in die Zukunft gleicht oftmals einem Blick in die Glaskugel. Dennoch wollen und müssen Unternehmen wissen, was auf sie zukommt, um sich optimal auf neue Herausforderungen einstellen zu können. Generative KI und damit entwickelte Avatare können dabei helfen, indem sie völlig neue Einblicke ermöglichen. NTT DATA beantwortet die wichtigsten Fragen rund um die Methode. ​ […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*