Wie unterscheiden sich Data Lakes von Data Warehouses?

Unternehmen müssen sich umstellen, wenn sie mit den vielfältigen Kundeninteraktionen in Online- und Offline-Kanälen Schritt halten wollen. Dafür benötigen sie eine fundierte Datenanalyse, um schnell auf ständig neue Anfragen reagieren zu können. Eine Lösung dafür bietet ein Data Lake, der aus unterschiedlichen Quellen fortlaufend mit aktuellen Daten gespeist wird. [...]

Für das klassische betriebswirtschaftliche Berichtswesen oder Controlling-Auswertungen im Mittelstand und in großen Unternehmen stellt ein Data Warehouse die erforderliche Informationsbasis bereit. Dabei werden strukturierte Daten, die vor Tagen, Wochen oder gar Monaten erfasst wurden, in einem oft aufwändigen ETL-Verfahren (Extract, Transfer, Load) aufbereitet und anschließend analysiert; die daraus abgeleiteten Entscheidungen werden zu einem späteren Zeitpunkt umgesetzt.
Um schnell auf aktuelle Änderungen im Kundenverhalten reagieren zu können, reicht das nicht mehr aus. Als Alternative ist daher vor einiger Zeit das Modell von Data Lakes entstanden. Bevor sich Unternehmen für die Einführung von Data Lakes entscheiden, ist es hilfreich, die Besonderheiten, die Ziele und vor allem die Stärken und Schwächen von Data Lakes und Data Warehouses näher zu betrachten.
Stärken und Schwächen von Data Lakes
Am Anfang steht die Frage, wie Unternehmen mit der täglich anfallenden Datenmenge umgehen sollen. Welche können sofort gelöscht werden? Welche sollen dauerhaft gespeichert werden? Was sollte generell damit geschehen?
Um auf Nummer sicher zu gehen, würden einige Unternehmen zunächst einmal gerne alle Daten speichern bis feststeht, ob sie für die Geschäftsstrategie von Bedeutung sind. An dieser Stelle kommen Data Lakes ins Spiel. Hier werden die Daten im Originalformat abgelegt bis sich dafür ein Anwendungsfall findet.

Data Lakes sind gut skalierbar, können als eine Art Zwischenlager für Data Warehouses dienen und bieten eine kostengünstige Möglichkeit zur Ablage beliebiger Dateiformate. Dies ist vor allem für wenig strukturierte Daten wie Dokumente, Bilder, E-Mails oder Audiodateien interessant.

Data Scientists, die über fundierte betriebswirtschaftliche und statistische Kenntnisse verfügen, befassen sich seit einiger Zeit mit der Erkundung von Data Lakes und entwickeln Ideen, wie Unternehmen von den neu entstehenden Datenmengen, etwa an den vielfältigen Kundenkontaktpunkten, profitieren können.

Ein Data Lake ist ein zentraler Speicherort, an dem Informationen in ihrem ursprünglichen Format und ohne weitere Anpassung aus unterschiedlichen Quellen zusammenfließen. Es gibt keine vorher festgelegten Korsetts, in welche die Daten eingezwängt würden; vielmehr ergeben sich die Datenmodelle erst aus künftigen Anwendungsszenarien.

Allerdings haben Data Lakes auch ihre Schwächen. Aufgrund der unstrukturierten Informationen können Unternehmen nur schwer von vornherein den benötigten Speicherplatz und die am besten geeigneten Abfrage-Tools ermitteln, um Daten systemübergreifend und Applikations-unabhängig analysieren zu können.
Eine weitere Hürde: Spezialisten zur Auswertung der wenig strukturierten Daten sind Mangelware. Sie müssen entweder erst ausgebildet werden oder Mitarbeiter in den Unternehmen arbeiten sich in die Thematik ein und sammeln in ersten Projekten Erfahrungen.

Darüber hinaus erweisen sich die Funktionen zur Integration der Daten aus mehreren Quellen als Herausforderung. Hier empfiehlt es sich, Tests in kleinen Arbeitsumgebungen durchzuführen, um die Erkenntnisse anschließend auf umfangreiche und komplexe Datenmengen zu übertragen.
Stärken und Schwächen von Data Warehouses
Auch, wenn Data Lakes nun schrittweise in den produktiven Datenanalyseumgebungen in den Fachbereichen der Unternehmen Einzug halten, sind die Data Warehouses nach wie vor der Standard bei der Auswertung von Daten aus relationalen Datenbanken und betriebswirtschaftlichen Applikationen. Typische Anwendungsszenarien für Data Warehouses sind traditionelle Business-Intelligence- und Analytics-Applikationen, die beispielsweise zur Unternehmenssteuerung eingesetzt werden.

Ein Data Warehouse stellt Werkzeuge für Reporting, Data Analytics und die langfristige Aufbewahrung unternehmenskritischer Daten bereit. Traditionell gibt es keine standardbasierte Möglichkeit, um große Datenmengen zwischen Data-Warehouse-Systemen zu migrieren. Nicht optimal ausgelegte Lösungen konnten nicht mehr mithalten, wenn weitere Datenbankquellen integriert werden sollten. Im Vergleich zu Data Lakes dienen Data Warehouses zudem zur Speicherung aggregierter Versionen der gleichen Daten in Form strukturierter Reports.

In Anbetracht des steigenden Datenvolumens – vor allem bei wenig strukturierten Informationen – fürchten Unternehmen, dass Data Warehouses nicht die benötigte Ausbaukapazität bereitstellen könnten und nicht flexibel genug seien. Zudem stoßen herkömmliche Data-Warehouse-Lösungen bei der Verarbeitung großer Mengen wenig oder uneinheitlich strukturierter Daten, bei gleichzeitiger Forderung nach schnellen Antwortzeiten bei Ad-hoc-Abfragen an Ihre Grenzen.

Auf absehbare Zeit werden Data Lakes die Data Warehouses nicht komplett überflüssig machen. Beide Ansätze ergänzen einander bei der Vorbereitung von Entscheidungen. Unternehmen sind damit in der Lage, die Grenzen des bisher Machbaren zu verschieben und können neue Möglichkeiten erschließen. Auch wenn beide Meinungen ihre Berechtigung in den Unternehmen haben: die sich verändernde digitale Landschaft offenbart immer mehr, dass Data Lakes für Unternehmen, die eine Führungsrolle übernehmen möchten, besser geeignet sind.

*Sumit Sarkar ist Chief Data Evangelist bei Progress.


Mehr Artikel

News

Jahrelanges Katz-und-Maus-Spiel zwischen Hackern und Verteidigern

Sophos hat den umfangreichen Forschungsbericht „Pacific Rim“ veröffentlicht, der detailliert ein jahrelanges Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit mehreren staatlich unterstützten Cybercrime-Gruppierungen aus China beschreibt. Im Lauf der Auseinandersetzung entdeckte Sophos ein riesiges, gegnerisches Cybercrime-Ökosystem. […]

News

Salesforce kündigt autonome KI-Agenten an

Agentforce soll es Unternehmen ermöglichen, autonome KI-Agenten für zahlreiche Unternehmensfunktionen zu entwickeln und einzusetzen. So bearbeitet Agentforce beispielsweise selbstständig Kundenanliegen, qualifiziert Vertriebsleads und optimiert Marketingkampagnen. […]

News

Startschuss für neues Studium „Softwaretechnik & Digitaler Systembau“ am Biotech Campus Tulln

Mit einem fortschrittlichen Konzept und praxisnaher Ausrichtung ist der neue Bachelor-Studiengang „Softwaretechnik & Digitaler Systembau“ am Biotech Campus Tulln der Fachhochschule Wiener Neustadt erfolgreich gestartet. Unter der Leitung von Dominik Hölbling erwartet die Studierenden eine Ausbildung mit Schwerpunkt auf moderne Softwaretechnologien und innovative Digitalisierungslösungen. […]

News

Von Views zu Likes: Tipps, um die Zuschauer-Interaktion auf YouTube zu steigern

Bei YouTube ist die Zuschauerinteraktion ein entscheidendes Element für den Erfolg eines Kanals. Besonders im Jahr 2024 wird deutlich, dass Likes, Kommentare und Shares nicht nur für die Sichtbarkeit wichtig sind, sondern auch eine Schlüsselrolle im Algorithmus von YouTube spielen. Eine hohe Zuschauerbindung ist für Kanäle essenziell, um deren Inhalte optimal zu promoten. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*