Wie unterscheiden sich Data Lakes von Data Warehouses?

Unternehmen müssen sich umstellen, wenn sie mit den vielfältigen Kundeninteraktionen in Online- und Offline-Kanälen Schritt halten wollen. Dafür benötigen sie eine fundierte Datenanalyse, um schnell auf ständig neue Anfragen reagieren zu können. Eine Lösung dafür bietet ein Data Lake, der aus unterschiedlichen Quellen fortlaufend mit aktuellen Daten gespeist wird. [...]

Für das klassische betriebswirtschaftliche Berichtswesen oder Controlling-Auswertungen im Mittelstand und in großen Unternehmen stellt ein Data Warehouse die erforderliche Informationsbasis bereit. Dabei werden strukturierte Daten, die vor Tagen, Wochen oder gar Monaten erfasst wurden, in einem oft aufwändigen ETL-Verfahren (Extract, Transfer, Load) aufbereitet und anschließend analysiert; die daraus abgeleiteten Entscheidungen werden zu einem späteren Zeitpunkt umgesetzt.
Um schnell auf aktuelle Änderungen im Kundenverhalten reagieren zu können, reicht das nicht mehr aus. Als Alternative ist daher vor einiger Zeit das Modell von Data Lakes entstanden. Bevor sich Unternehmen für die Einführung von Data Lakes entscheiden, ist es hilfreich, die Besonderheiten, die Ziele und vor allem die Stärken und Schwächen von Data Lakes und Data Warehouses näher zu betrachten.
Stärken und Schwächen von Data Lakes
Am Anfang steht die Frage, wie Unternehmen mit der täglich anfallenden Datenmenge umgehen sollen. Welche können sofort gelöscht werden? Welche sollen dauerhaft gespeichert werden? Was sollte generell damit geschehen?
Um auf Nummer sicher zu gehen, würden einige Unternehmen zunächst einmal gerne alle Daten speichern bis feststeht, ob sie für die Geschäftsstrategie von Bedeutung sind. An dieser Stelle kommen Data Lakes ins Spiel. Hier werden die Daten im Originalformat abgelegt bis sich dafür ein Anwendungsfall findet.

Data Lakes sind gut skalierbar, können als eine Art Zwischenlager für Data Warehouses dienen und bieten eine kostengünstige Möglichkeit zur Ablage beliebiger Dateiformate. Dies ist vor allem für wenig strukturierte Daten wie Dokumente, Bilder, E-Mails oder Audiodateien interessant.

Data Scientists, die über fundierte betriebswirtschaftliche und statistische Kenntnisse verfügen, befassen sich seit einiger Zeit mit der Erkundung von Data Lakes und entwickeln Ideen, wie Unternehmen von den neu entstehenden Datenmengen, etwa an den vielfältigen Kundenkontaktpunkten, profitieren können.

Ein Data Lake ist ein zentraler Speicherort, an dem Informationen in ihrem ursprünglichen Format und ohne weitere Anpassung aus unterschiedlichen Quellen zusammenfließen. Es gibt keine vorher festgelegten Korsetts, in welche die Daten eingezwängt würden; vielmehr ergeben sich die Datenmodelle erst aus künftigen Anwendungsszenarien.

Allerdings haben Data Lakes auch ihre Schwächen. Aufgrund der unstrukturierten Informationen können Unternehmen nur schwer von vornherein den benötigten Speicherplatz und die am besten geeigneten Abfrage-Tools ermitteln, um Daten systemübergreifend und Applikations-unabhängig analysieren zu können.
Eine weitere Hürde: Spezialisten zur Auswertung der wenig strukturierten Daten sind Mangelware. Sie müssen entweder erst ausgebildet werden oder Mitarbeiter in den Unternehmen arbeiten sich in die Thematik ein und sammeln in ersten Projekten Erfahrungen.

Darüber hinaus erweisen sich die Funktionen zur Integration der Daten aus mehreren Quellen als Herausforderung. Hier empfiehlt es sich, Tests in kleinen Arbeitsumgebungen durchzuführen, um die Erkenntnisse anschließend auf umfangreiche und komplexe Datenmengen zu übertragen.
Stärken und Schwächen von Data Warehouses
Auch, wenn Data Lakes nun schrittweise in den produktiven Datenanalyseumgebungen in den Fachbereichen der Unternehmen Einzug halten, sind die Data Warehouses nach wie vor der Standard bei der Auswertung von Daten aus relationalen Datenbanken und betriebswirtschaftlichen Applikationen. Typische Anwendungsszenarien für Data Warehouses sind traditionelle Business-Intelligence- und Analytics-Applikationen, die beispielsweise zur Unternehmenssteuerung eingesetzt werden.

Ein Data Warehouse stellt Werkzeuge für Reporting, Data Analytics und die langfristige Aufbewahrung unternehmenskritischer Daten bereit. Traditionell gibt es keine standardbasierte Möglichkeit, um große Datenmengen zwischen Data-Warehouse-Systemen zu migrieren. Nicht optimal ausgelegte Lösungen konnten nicht mehr mithalten, wenn weitere Datenbankquellen integriert werden sollten. Im Vergleich zu Data Lakes dienen Data Warehouses zudem zur Speicherung aggregierter Versionen der gleichen Daten in Form strukturierter Reports.

In Anbetracht des steigenden Datenvolumens – vor allem bei wenig strukturierten Informationen – fürchten Unternehmen, dass Data Warehouses nicht die benötigte Ausbaukapazität bereitstellen könnten und nicht flexibel genug seien. Zudem stoßen herkömmliche Data-Warehouse-Lösungen bei der Verarbeitung großer Mengen wenig oder uneinheitlich strukturierter Daten, bei gleichzeitiger Forderung nach schnellen Antwortzeiten bei Ad-hoc-Abfragen an Ihre Grenzen.

Auf absehbare Zeit werden Data Lakes die Data Warehouses nicht komplett überflüssig machen. Beide Ansätze ergänzen einander bei der Vorbereitung von Entscheidungen. Unternehmen sind damit in der Lage, die Grenzen des bisher Machbaren zu verschieben und können neue Möglichkeiten erschließen. Auch wenn beide Meinungen ihre Berechtigung in den Unternehmen haben: die sich verändernde digitale Landschaft offenbart immer mehr, dass Data Lakes für Unternehmen, die eine Führungsrolle übernehmen möchten, besser geeignet sind.

*Sumit Sarkar ist Chief Data Evangelist bei Progress.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*