Hadoop: Große Datenmengen kostengünstig analysieren

Große, unstrukturierte Datenmengen verarbeiten mit günstiger Standard-Hardware, paralleler Verarbeitung und nicht-relationalen Formaten? Hadoop ist dafür ein gutes Beispiel. [...]

Als weitere Möglichkeit bietet sich der Einsatz der prozeduralen Hadoop-Erweiterung Apache Pig an. Sie wurde 2006 von Yahoo entwickelt, um nicht hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Script-Sprache Pig Latin. Sie soll, ähnlich wie dies die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, für IT-affine Mitarbeiter aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop vereinfachen. Pig Latin beschreibt die Verarbeitungsschritte, die das Pig-Latin-Framework dann in MapReduce-Jobs überführt. Eine weitere Option bietet Oracle Big Data SQL. Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Data Bases, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

LÖSUNGSSZENARIEN TESTEN UND WEITERENTWICKELN

Festzuhalten bleibt: Hadoop ist kein Ersatz für eine Data-Warehouse-Umgebung, wie sie von der IT-Abteilung betrieben, gepflegt und weiterentwickelt wird. Hadoop ergänzt vielmehr die Data-Warehouses. Während diese den strikten Regeln und Vorgaben einer unternehmensweiten IT-Governance folgen müssen, bietet eine Hadoop-Implementierung in einem Fachbereich mehr Spielräume in einer abgegrenzten Laborumgebung. Hier geht es traditionell um Exploration und ein interaktives Lernen.

So kann etwa ein Mobilfunkanbieter Netzwerkdaten auswerten, um die Service-Qualität in solchen Regionen zu verbessern, in denen es überdurchschnittliche hohe Abwanderungen von Kunden gab. Die Aufgabe hier ist es, Maßnahmen zu entwickeln und zu testen, um die Kundenbindungsrate zu steigern. Im Bereich der Vertriebsförderung analysiert ein Automobilhersteller die Daten aus dem Pkw-Konfigurator im Web. Die Ergebnisse dienen als Grundlage, um gemeinsam mit Händlern die Verkaufsquote zu verbessern. Die für Service zuständige Abteilung des Automobilherstellers wertet Daten zu Garantiefällen aus. Da es in der Vergangenheit deutliche Kritik von Kunden gab, die sich auch in verschiedenen Web-Foren wiederspiegelte, ist es Aufgabe des Projekts, Lösungen zu finden, um gezielt die Produktqualität zu verbessern.

In all diesen Anwendungsszenarien unterstützt Hadoop die Fachbereiche dabei, das vorhandene, eher gering strukturierte Datenmaterial mit Hilfe von Hypothesen auszuwerten und Lösungsszenarien zu entwickeln, die dann getestet, weiterentwickelt oder verworfen werden. Zeigt sich im Laufe der Zeit, dass sich daraus standardisierte Verfahren und Prozesse ergeben, finden sie Eingang in die IT-Governance und die IT-Abteilung ist dann dafür zuständig.

* Knut Veltjens ist Vice President / Practice Head Business Intelligence bei CGI in Sulzbach bei Frankfurt am Main


Mehr Artikel

News

Cybersicherheitsbudgets werden falsch priorisiert

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

News

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

News

Generative KI als Sicherheitsrisiko

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*