5. Dezember 2025

Sauberer Data Lake statt Datensumpf

Nur weil es inzwischen sehr günstig und einfach ist, viele Daten zu speichern, heißt das noch lange nicht, dass Unternehmen auch alle Daten speichern sollten, die ihnen in die Finger kommen. Die wirklich relevanten Daten gehen dann nämlich unter. [...]

Unternehmen auf der ganzen Welt setzen, getrieben durch Technologien wie Apache Hadoop, auf Data Lakes. Dabei handelt es sich um unternehmenseigene Daten-Management-Plattformen, die die Speicherung sämtlicher Daten in ihrem natürlichen Format ermöglichen. Das Versprechen: Informationssilos werden auf diese Weise eingerissen und allen Unternehmensbereichen steht ein großes Datendepot zur Verfügung, mit dem von Business Analytics bis Data Mining alle anfallenden Aufgaben erledigt werden können. Entsprechend wird der Data Lake als eierlegende Big-Data-Wollmilchsau gepriesen.
Zu viele Daten
Die Erfahrungen von Avi Perez, CTO beim Business-Intelligence-Spezialisten Pyramid Analytics, sprechen da eine andere Sprache: „Ich sehe regelmäßig Kunden, deren Data Lakes sich in Sümpfe verwandelt haben – massive Datendeponien, die für die Endbenutzer völlig unzugänglich geworden sind.“ Datenbanken, so Perez weiter, seien teuer und der Data Lake die Antwort auf dieses Problem: „Data Lakes und generell alle Big-Data-Initiativen kommen aus zwei Gründen zustande: Erstens wegen des Wettbewerbsdrucks und zweitens wegen der Datengeneratoren in der echten Welt, die ständig neue Datenpakete produzieren und neuen Speicherbedarf verursachen.“
Das Problem dabei ist nur: Während einige Konzerne – Google ist das Paradebeispiel – neue Geschäftsmodelle rund um ihre Data Lakes aufgebaut haben, sammeln viele andere einfach nur Daten. Ohne ein klares Ziel oder einen Plan, wie man daraus Mehrwert schaffen kann. Das soll nicht heißen, dass ein Data Lake per se eine schlechte Idee wäre. Avi Perez ist sogar überzeugt davon, dass irgendwann jedes Unternehmen einen solchen braucht. Doch einen Data Lake zu schaffen, der den Endbenutzern echten Nutzen, beziehungsweise Mehrwert bringt, erfordert eine strategische Vorgehensweise. Drei Strategien helfen Unternehmen dabei, nicht im eigenen Data Lake zu ertrinken.
1. Weniger Daten sammeln
Laut Perez begehen viele Unternehmen den Fehler, zu viele Daten zu sammeln, einfach, weil sie es können. Der Experte führt das Smartphone als Beispiel an: „Am Ende hat man Millionen von Fotos auf dem Telefon, von denen 99 Prozent Datenmüll sind, den man sofort löschen könnte. Das Fotografieren ist dank des Smartphones so einfach geworden, dass es nahezu umsonst ist. Wahrscheinlich erwischen auch Sie sich öfter bei Gedankengängen wie ‚demnächst räume ich auf‘ – dazu kommt es natürlich nie. Stattdessen sammelt man enorme Mengen von Daten, hat aber keinerlei effektive Möglichkeit, diese zu strukturieren.“
Genau dasselbe Problem sucht auch die Data Lakes dieser Welt heim, wie Perez erklärt: „Die Speicherung von Daten in Hadoop ist fast schon günstig genug, um als kostenlos durchzugehen. Aber die schiere Masse von Daten, die über die Zeit akkumuliert wird, macht es schwierig bis unmöglich, diejenigen Datensätze zu identifizieren, die Sie mit wertvollen Insights ausstatten.“
Um dieses Problem zu umgehen, rät der Experte, den Datenhahn zuzudrehen: „Nur weil es günstig ist, die Daten zu sammeln, muss es nicht günstig sein, die Daten zu nutzen. Das könnte sogar ganz schön teuer werden. Sammeln Sie also nicht überall und zu jeder Zeit Daten. Fokussieren Sie sich auf die Daten, von denen Sie bereits wissen, wie Sie sie nutzen wollen.“
2. Machine-Learning-Strategie
Wenn Sie sich auf ein oder mehrere Data Sets fokussiert haben, sollten Sie auf Automatisierung setzen, um Mehrwert aus den Daten zu generieren. „Künstliche Intelligenz, Machine Learning, Deep Learning – welches Buzzword Sie auch verwenden, es ist die magische Lösung, die Ihnen den Weg durch die Daten ebnet. Ich behaupte, das ist der einfachste Weg um Mehrwert aus Ihrem 5-Petabyte-Data-Lake zu schöpfen“, so Perez.
Zum Start empfiehlt der CTO ein Datenpaket und eine Machine-Learning-Technik auszuwählen, um dieses zu bearbeiten. Um effektive Methoden zu entwickeln, sollten Sie vor Investitionen – entweder für Weiterbildung oder für neues Fachpersonal – nicht zurückschrecken, empfiehlt Perez: „Machine Learning ist schwarze Kunst – man braucht dafür sehr spezifische Skills.“
3. Geschäftszweck identifizieren
An diesem Punkt laufen die Enden zusammen: Sie brauchen eine klare Vision von dem Geschäftsproblem, dass Sie lösen wollen. Mit diesem Ziel vor Augen sollte es nicht besonders schwer sein, die Daten einzugrenzen, die Sie für Ihr Vorhaben brauchen. Auch die richtige Machine-Learning-Technik ergibt sich in der Regel aus dem verfolgten Zweck.
Perez erklärt das Vorgehen am fiktiven Beispiel eines großen Retail-Unternehmens: „Sie wollen mehr darüber erfahren, welche Kunden Ihre Geschäfte frequentieren. Dazu könnten Sie Ihre Kunden fotografieren und die Daten anschließend mit Hilfe eines künstlichen neuronalen Netzes (KNN) auswerten. Das KNN kann Ihnen dabei helfen zu bestimmen, ob es sich bei den Personen auf den Fotos beispielsweise um Kinder oder Erwachsene handelt. Wenn Sie damit fertig sind, verknüpfen Sie die Daten mit dem entsprechenden Geschäftsziel. So können Sie beispielsweise herausfinden, welche Zielgruppen Sie eventuell verfehlen. Wichtig ist dabei, dass Sie von Anfang an eine klare Strategie besitzen.“
Oft lassen sich aus solchen Erkenntnissen anschließend auch neue, ergänzende Möglichkeiten ableiten, um das Business mit weiteren maßgeschneiderten Lösungen zu versorgen. Wenn ein Unternehmen beispielsweise weiß, wer sich in seinen Geschäften aufhält, lässt sich damit auch herausfinden, welche Kunden am häufigsten an der Kosmetikabteilung vorbeilaufen. (idg/oli)

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

5. Dezember 2025 Nicholas Jackson *

Ein Blick in die Praxis zeigt: IT-Sicherheit scheitert nicht an Technologien oder Fehlverhalten, sondern bereits grundsätzlich an einem Mangel an Unternehmenskultur. Wenn Cybersicherheit in einer Organisation nur als eine schlecht durchgesetzte Aufgabe von anderen für andere verstanden wird, entsteht vielleicht eine oberflächliche Compliance, aber keine wirkliche Cyberresilienz. […]

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

5. Dezember 2025

Um den Erfolg agiler Arbeitsweisen zu messen, setzen Österreichs Unternehmen auf klare Kennzahlen. Dabei ist vor allem die Kundenzufriedenheit wichtig. Gleichzeitig gewinnt Effizienz im Hinblick auf die angespannte Wirtschaftslage an Bedeutung: kürzere Projektlaufzeiten werden immer wichtiger, genauso wie die Kontrolle der Implementierungskosten. […]

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

5. Dezember 2025 Daniel Bader *

Zugegeben, am kryptischen Namen des brandneuen 14-Zoll-Notebooks sollte Hersteller Medion noch etwas feilen. Das, worauf es bei einem Laptop aber ankommt, ist vom Feinsten. Der PCtipp-Test. […]

Michael Maier, Director Austria iteratec (c) iteratec

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

4. Dezember 2025 Michael Maier*

Wie weit wird die Evolution der Künstlichen Intelligenz gehen und wie wird sie sich auf Wirtschaft und Gesellschaft als Ganzes auswirken? Was für Privatpersonen interessante Fragen sind, sind für Unternehmer existenzielle Themen, schließlich müssen diese wirtschaftlich gegenüber Konkurrenten bestehen, von denen viele bereits an einer effektiven Nutzung von KI arbeiten. […]

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

4. Dezember 2025

Damit KI-Anwendungen produktiv und skalierbar eingesetzt werden können, benötigen Unternehmen zunächst eine tragfähige technologische und organisatorische Basis. Insbesondere moderne Datenplattformen, klare Governance-Strukturen und eine hohe Datenqualität gelten als Voraussetzung für erfolgreiche KI-Nutzung. Aber genau hier besteht noch Nachholbedarf. […]

Diese Trends bestimmen 2026 das SAP-Universum

4. Dezember 2025

Vor allem Datensouveränität, Compliance und das nahende Ende des Supports für Legacy-Lösungen stehen im Fokus – neben den Dauerthemen Cloud und KI. […]

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

4. Dezember 2025

Die neue Marke vereint den operativen Kern des Tech-Consulting-Dienstleisters und bekräftigt sein Engagement, Wirtschaft und Gesellschaft mit Technologie zu unterstützen. […]

Produktionsplanung 2026: Worauf es ankommt

4. Dezember 2025

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Monitor Eizo FlexScan EV2740S im Test

4. Dezember 2025 Daniel Bader *

Was soll denn an einem 27 Zoll großen Monitor für Büroumgebungen schon besonders sein? Vieles, wie unser Test klar macht. […]

Sauberer Data Lake statt Datensumpf

Nur weil es inzwischen sehr günstig und einfach ist, viele Daten zu speichern, heißt das noch lange nicht, dass Unternehmen auch alle Daten speichern sollten, die ihnen in die Finger kommen. Die wirklich relevanten Daten gehen dann nämlich unter. [...]

Mehr Artikel

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

Diese Trends bestimmen 2026 das SAP-Universum

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

Produktionsplanung 2026: Worauf es ankommt

Monitor Eizo FlexScan EV2740S im Test

Be the first to comment

Leave a Reply Antwort abbrechen