8. April 2025

Wie unterscheiden sich Data Lakes von Data Warehouses?

Unternehmen müssen sich umstellen, wenn sie mit den vielfältigen Kundeninteraktionen in Online- und Offline-Kanälen Schritt halten wollen. Dafür benötigen sie eine fundierte Datenanalyse, um schnell auf ständig neue Anfragen reagieren zu können. Eine Lösung dafür bietet ein Data Lake, der aus unterschiedlichen Quellen fortlaufend mit aktuellen Daten gespeist wird. [...]

Für das klassische betriebswirtschaftliche Berichtswesen oder Controlling-Auswertungen im Mittelstand und in großen Unternehmen stellt ein Data Warehouse die erforderliche Informationsbasis bereit. Dabei werden strukturierte Daten, die vor Tagen, Wochen oder gar Monaten erfasst wurden, in einem oft aufwändigen ETL-Verfahren (Extract, Transfer, Load) aufbereitet und anschließend analysiert; die daraus abgeleiteten Entscheidungen werden zu einem späteren Zeitpunkt umgesetzt.
Um schnell auf aktuelle Änderungen im Kundenverhalten reagieren zu können, reicht das nicht mehr aus. Als Alternative ist daher vor einiger Zeit das Modell von Data Lakes entstanden. Bevor sich Unternehmen für die Einführung von Data Lakes entscheiden, ist es hilfreich, die Besonderheiten, die Ziele und vor allem die Stärken und Schwächen von Data Lakes und Data Warehouses näher zu betrachten.
Stärken und Schwächen von Data Lakes
Am Anfang steht die Frage, wie Unternehmen mit der täglich anfallenden Datenmenge umgehen sollen. Welche können sofort gelöscht werden? Welche sollen dauerhaft gespeichert werden? Was sollte generell damit geschehen?
Um auf Nummer sicher zu gehen, würden einige Unternehmen zunächst einmal gerne alle Daten speichern bis feststeht, ob sie für die Geschäftsstrategie von Bedeutung sind. An dieser Stelle kommen Data Lakes ins Spiel. Hier werden die Daten im Originalformat abgelegt bis sich dafür ein Anwendungsfall findet.

Data Lakes sind gut skalierbar, können als eine Art Zwischenlager für Data Warehouses dienen und bieten eine kostengünstige Möglichkeit zur Ablage beliebiger Dateiformate. Dies ist vor allem für wenig strukturierte Daten wie Dokumente, Bilder, E-Mails oder Audiodateien interessant.

Data Scientists, die über fundierte betriebswirtschaftliche und statistische Kenntnisse verfügen, befassen sich seit einiger Zeit mit der Erkundung von Data Lakes und entwickeln Ideen, wie Unternehmen von den neu entstehenden Datenmengen, etwa an den vielfältigen Kundenkontaktpunkten, profitieren können.

Ein Data Lake ist ein zentraler Speicherort, an dem Informationen in ihrem ursprünglichen Format und ohne weitere Anpassung aus unterschiedlichen Quellen zusammenfließen. Es gibt keine vorher festgelegten Korsetts, in welche die Daten eingezwängt würden; vielmehr ergeben sich die Datenmodelle erst aus künftigen Anwendungsszenarien.

Allerdings haben Data Lakes auch ihre Schwächen. Aufgrund der unstrukturierten Informationen können Unternehmen nur schwer von vornherein den benötigten Speicherplatz und die am besten geeigneten Abfrage-Tools ermitteln, um Daten systemübergreifend und Applikations-unabhängig analysieren zu können.
Eine weitere Hürde: Spezialisten zur Auswertung der wenig strukturierten Daten sind Mangelware. Sie müssen entweder erst ausgebildet werden oder Mitarbeiter in den Unternehmen arbeiten sich in die Thematik ein und sammeln in ersten Projekten Erfahrungen.

Darüber hinaus erweisen sich die Funktionen zur Integration der Daten aus mehreren Quellen als Herausforderung. Hier empfiehlt es sich, Tests in kleinen Arbeitsumgebungen durchzuführen, um die Erkenntnisse anschließend auf umfangreiche und komplexe Datenmengen zu übertragen.
Stärken und Schwächen von Data Warehouses
Auch, wenn Data Lakes nun schrittweise in den produktiven Datenanalyseumgebungen in den Fachbereichen der Unternehmen Einzug halten, sind die Data Warehouses nach wie vor der Standard bei der Auswertung von Daten aus relationalen Datenbanken und betriebswirtschaftlichen Applikationen. Typische Anwendungsszenarien für Data Warehouses sind traditionelle Business-Intelligence- und Analytics-Applikationen, die beispielsweise zur Unternehmenssteuerung eingesetzt werden.

Ein Data Warehouse stellt Werkzeuge für Reporting, Data Analytics und die langfristige Aufbewahrung unternehmenskritischer Daten bereit. Traditionell gibt es keine standardbasierte Möglichkeit, um große Datenmengen zwischen Data-Warehouse-Systemen zu migrieren. Nicht optimal ausgelegte Lösungen konnten nicht mehr mithalten, wenn weitere Datenbankquellen integriert werden sollten. Im Vergleich zu Data Lakes dienen Data Warehouses zudem zur Speicherung aggregierter Versionen der gleichen Daten in Form strukturierter Reports.

In Anbetracht des steigenden Datenvolumens – vor allem bei wenig strukturierten Informationen – fürchten Unternehmen, dass Data Warehouses nicht die benötigte Ausbaukapazität bereitstellen könnten und nicht flexibel genug seien. Zudem stoßen herkömmliche Data-Warehouse-Lösungen bei der Verarbeitung großer Mengen wenig oder uneinheitlich strukturierter Daten, bei gleichzeitiger Forderung nach schnellen Antwortzeiten bei Ad-hoc-Abfragen an Ihre Grenzen.

Auf absehbare Zeit werden Data Lakes die Data Warehouses nicht komplett überflüssig machen. Beide Ansätze ergänzen einander bei der Vorbereitung von Entscheidungen. Unternehmen sind damit in der Lage, die Grenzen des bisher Machbaren zu verschieben und können neue Möglichkeiten erschließen. Auch wenn beide Meinungen ihre Berechtigung in den Unternehmen haben: die sich verändernde digitale Landschaft offenbart immer mehr, dass Data Lakes für Unternehmen, die eine Führungsrolle übernehmen möchten, besser geeignet sind.

*Sumit Sarkar ist Chief Data Evangelist bei Progress.

Der Cyber Resilience Act fordert Produktanpassungen

8. April 2025

Höchste Zeit für Hersteller: Geräte mit ausnutzbaren Cyber-Schwachstellen dürfen in der EU bald nicht mehr verkauft werden. […]

So werden Unternehmen autonom und resilient

8. April 2025

Ein Unternehmen, in dem viele Prozesse automatisiert ablaufen, ohne menschliche Aufsicht, und das sich dabei kontinuierlich selbst optimiert? Fortgeschrittene KI und Automatisierungswerkzeuge liefern die dafür notwendige technische Grundlage, doch die Umsetzung ist in der Regel mit einigen Herausforderungen verbunden. […]

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

8. April 2025 Angela Heindl-Schober *

Wenn es um die Geschäftskontinuität geht, stechen zwei Schlüsselmetriken hervor: Recovery Point Objective (RPO) und Recovery Time Objective (RTO). Oft werden diese verwechselt oder die Diskussion dreht sich um RPO versus RTO. Beide Metriken sind jedoch für die Entwicklung effektiver Datenschutzstrategien und die Minimierung von Unterbrechungen und Datenverlusten unerlässlich. […]

Demystify hilft bei der API-Dokumentation

8. April 2025 Patrick Hediger *

Mit dem Open-Source-Projekt Demystify können Entwickler API-Dokumentationen in Echtzeit automatisiert erstellen. Das Tool verspricht eine einfache Bedienung und hohe Genauigkeit. […]

Nadine Riederer, CEO von Avision. (c) Avision

So vergeigt man die Übernahme einer Alt-Software

8. April 2025 Nadine Riederer*

Wenn ein IT-Dienstleister die Betreuung einer Legacy-Software übernimmt, kann er so einiges falsch machen. Avision zeigt auf, wie er die Übernahme zuverlässig in den Sand setzt. […]

Drohnen, die autonom und ohne GPS navigieren können, wären in der Lage kritische Infrastruktur wie Brücken oder Strommasten selbstständig zu inspizieren. (c) Fikri Rasyid / unsplash

Wie Drohnen autonom fliegen lernen

7. April 2025 pi/kdl

Von wirklich selbstständigen Robotern, die durch eine komplexe und sich verändernde Umwelt navigieren können, sind wir noch weit entfernt. Neue Ansätze mit KI bieten eine Chance, diese Vorstellung ein Stück weit Realität werden zu lassen. Jan Steinbrener experimentiert an der Universität Klagenfurt mit Drohnen, die genau das versuchen. […]

Andrew O’Dower, Vice President, Product Management für Voice und Voice AI bei Twilio (c) Twilio

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

7. April 2025 Andrew O'Dower*

Neben den Large Language Models (LLM), die einen regelrechten KI-Boom ausgelöst haben, rücken nun vermehrt Small Language Models (SLM) vor allem für Unternehmen in den Fokus. Andrew O’Dower, Leiter des Bereichs Product Management für Voice und Voice AI bei Twilio, erklärt was es damit auf sich hat. […]

Christina Decker, Director Strategic Channels Europe bei Trend Micro (c) Trend Micro

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

7. April 2025 Christina Decker*

Cybersicherheitsregulatoren hatten ein geschäftiges Jahr 2024. Zuerst kam die NIS2-Richtlinie, deren Umsetzungsfrist Mitte Oktober ablief. Nur wenige Monate später trat in der gesamten EU der lang erwartete Digital Operational Resilience Act (DORA) in Kraft. Beide Regelwerke wurden dringend benötigt, haben aber auch enormen Druck auf Unternehmen in der Region ausgeübt. Besonders KMU spüren diesen Druck. […]

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

7. April 2025 pi/kdl

Laut EU AI-Act müssen seit 2. Februar 2025 alle Mitarbeitenden, die Künstliche Intelligenz (KI) nutzen, entwickeln oder betreiben, über ausreichende KI-Kompetenzen verfügen. Das hat die „Employer Brand Research 2025“ des internationalen Personaldienstleisters Randstad als Schwerpunktthema untersucht. […]

Wie unterscheiden sich Data Lakes von Data Warehouses?

Mehr Artikel

Der Cyber Resilience Act fordert Produktanpassungen

So werden Unternehmen autonom und resilient

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

Demystify hilft bei der API-Dokumentation

So vergeigt man die Übernahme einer Alt-Software

Wie Drohnen autonom fliegen lernen

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

Be the first to comment

Leave a Reply Antworten abbrechen