Was ist ein Data Lake? Flexible Großdatenspeicher erklärt

Ein Data Lake kann ein flexiblerer Speicherort, als ein Datenlager sein. Oder ein Mistkübel dessen Inhalt wächst und wächst. [...]

Big Data ist ein immer aktueller werdendes Thema. Vor allem Unternehmen zerbrechen sich darüber den Kopf. Was ein Data Lake für Vorteile bringt erfahren Sie hier. (c) Pixabay

Wenn Sie sich für die aktuellsten Neuigkeiten rund um Technologiekonzepte im Bereich Big Data interessieren, ist Ihnen der Begriff „Data Lake“ wahrscheinlich bereits untergekommen. Bei dem Wort Lake, aus dem Englischen = See, kommt einem schnell eine große Menge, ein Speicher, an Wasser in den Sinn. Und im Grunde ist genau das das Konzept: Ein Data Lake ist ein Speicher für Daten.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Data Lake definiert

Ein Data Lake ist ein Speicherbehältnis, das große Mengen an rohen, unstrukturierten Daten in ihrer ursprünglichen Form, aufbewahrt.

Das bedeutet, das alles was Sie dazu brauchen ein Gerät ist, dass eine Flat-File-Datenbank unterstützt. Wenn Sie wollen, können Sie also einen Großspeicher benutzen. Die Daten werden auf andere Server verteilt, um sie zu verarbeiten. Die meisten Unternehmen nutzen hierfür das Hadoop File System (HDFS), da es für schnelles verarbeiten von großen Datensätzen entworfen wurde und meist in Big Data Umfeldern, wo Data Lakes am ehesten vorkommen, genutzt wird.

Dieser Unterstützung für Ursprungsdaten bringt wesentliche Vorteile mit sich. „Wenn ich eine unglaublich große Anzahl an Datensätzen bekomme und herausfinden muss, was ich damit später mache, ist das genau das, wozu wir Data Lakes momentan nutzen.“, so Michael Hiskey, Chefstratege bei Semarchy, einem Anbieter von Datenmanagement Software.

„Wir haben Sachen, die Menschen bewusst oder unbewusst auf die Data Lake Seite legen und behalten den Rest der interessant sein könnte auf. Ordnung bringen wir erst später ins Chaos. Wir könnten heute nicht erraten, was morgen oder in drei Jahren wichtig oder interessant ist.“, meint er.

Jake Stein, CEO von Stitch, einem ETL Dienst der verschiedene Cloud Quelldaten verbindet, wiederholt diese zukunftsweisende Einstellung: „Wenn Sie sich nicht sicher sind, wann Sie gewisse Daten nutzen werden, nicht sofortigen Zugriff darauf brauchen und die Daten kostengünstig lagern wollen, ist der Data Lake die richtige Lösung. Es ist oft ein Fall von „Wenn ich die Daten jetzt nicht gewinne, werde ich sie nie wieder bekommen.“. Es ist also wichtig sich in diese Richtung für die Zukunft abzusichern.“

Data Lake vs. Datenlager

Datenlagerstätten sind nichts neues. Datenlager gibt es seit Jahrzehnten. Und auch wenn es nur natürlich ist Daten Lakes mit Datenlagern zu vergleichen, gibt es doch fundamentale Unterschiede zwischen den beiden Speicherbehältern.

Keine spezielle Hardware für Data Lakes

Einer der wesentlichen Unterschiede zwischen Data Lakes und Date

Der maßgebliche Unterschied zwischen einem Data Lake und einem Datenlager sind neben Hardware und Software vor allem der Aufbau und die Struktur. (c) Pixabay

nlagern ist der, dass ein Data Lake im Gegensatz zum Datenlager keine spezielle Hardware oder Software benötigt.

Data Lakes sind flexibler

Wie bereits erwähnt, hält ein Data Lake eine große Menge an rohen, unstrukturierten Daten in ihrem Ursprungsformat, wohingegen das Datenlager strukturierter ist und Daten in Folder, Reihen und Spalten ordnet. Dadurch ist ein Data Lake viel flexibler wenn es um Daten geht, als ein Datenlager.

Das ist, auf Grund der 80 Prozent Regel, wichtig azu erwähnen: Im Jahr 1998 schätzte Merrill Lynch das 80 Prozent von Firmendaten unstrukturiert sind. Diese Annahme ist bis heute im Kern gleich geblieben. Das wiederrum bedeutet, das der Umfang einer potenziellen Datenanalyse eines Datenlagers limitiert ist.

Hiskey argumentiert, das Data Lakes nützlicher als Datenlager sind, da man Daten sammeln und speichern kann und auch, wenn man keine Elemente der Daten nutzt, noch nach Wochen, Monaten oder gar Jahren eine Analyse an diesen Daten durchführen kann, die anderenfalls verworfen worden wären.

Ein Unterschied in Bezug auf Flexibilität zwischen Data Lake und Datenlager ist das „Schema-on-Read“ vs. „Schema-on-Write“. Ein Schema ist eine logische Beschreibung einer gesamten Datenbank, inklusive Namen und Beschreibung von Aufzeichnungen aller Aufzeichnungstypen.

Ein Datenlager wendet das Schema-on-Write an, was bedeutet, dass man genau wissen muss wie man die Daten strukturieren möchte um sie zu sichern. Das wiederrum bedeutet eine aufwendige Vorbereitung vor der Eingabe oder zumindest vor dem Speichern. Im Unterschied dazu, wendet ein Data Lake das Schema-on-Read an. Hier können Sie die Daten so formatieren wie Sie wollen, während Sie diese lesen und verarbeiten. Schema-on-Read bedeutet, dass Sie alles in einen Kübel hauen, wie Log Daten, Web Daten oder andere Dinge die keine erwähnenswerte Struktur haben, und später herausfinden können, wie deren Struktur aussehen soll.

„Ein Datenlager ist sehr strukturiert. Man muss die Daten wirklich verstehen, bevor man irgendetwas damit macht.“, so Joe Wilhelmy, Leiter für technische Daten am American Associate of Insurance Service (AAIS). „Mit einem Data Lake können Sie Daten durch einen Reifezyklus bringen. Von den rohen Ursprungsdaten bis hin zu einer strukturierten Projektion. Zudem müssen Sie auf der „Reise“ keine Dateningenieure oder IT Spezialisten verpflichten um die Daten aufzubereiten, bevor sie nutzbar sind.“

Jedem Datenelement in einem Lake wird eine einzigartige Identifikation zugeteilt. Zusätzlich wird es mit erweiterten Metadaten markiert. Wenn jemand eine spezielle Geschäftsanfrage auf gewissen Metadaten basierend ausführt, werden alle anhängenden Metadaten für die Anfrage analysiert.

Anders als bei einem Datenlager, haben Data Lakes keine Datenbanken zugrundeliegen. Stattdessen nutzen sie Flat-File-Datenbanken. Bei einer reinen Datenbank müssen Sie die Daten und Rubriken zuerst auswählen bevor sie sich an diese wenden können. Der Ausgleich ist, dass es zwar eine Zeit dauert bis die Daten in der Datenbank eingetragen sind, eine Anfrage aber viel schneller erfüllt werden kann, als in einem Data Lake, welcher die Daten verarbeitet während er liest.

„Bei einem Data Lake können Sie Daten so speichern, wie Sie das wollen. Das erlaubt Ihnen Daten mit einem flexiblem Schema zu schreiben, bedeutet aber, dass der Umfang bei Anfragen später größer und daher langsamer ist.“, so Stein. „Das eine, was diese Server nicht sonderlich meistern ist das Metadaten Management. Dinge wie, in welchen Folder werden veraltete Daten verschoben. Wenn Sie sich für so einen Dienst entscheiden, müssen Sie Ihr eigenes Ding machen um Ordnung zu halten.“

Unternehmensklassische Data Lake Software

Die Nutzung eines Data Lakes ist schon seit einiger Zeit möglich, aber ein zweischneidiges Schwert. Denn auch wenn die Nutzung von bereits vorhandener, kostenloser Hardware und Open Source Software dadurch möglich war, fehlte die allgemeine Unterstützung durch eine traditionelle, ausgereifte Datenlager Firma. Genau diese Unterstützung wurde vielerorts verlangt, war aber nicht vorhanden.

Das hat sich mittlerweile verändert. Traditionelle Unternehmen wie TeraData und Oracle bieten gewerbliche Data Lake Produkte an. Genau wie spezialisierte Unternehmen wie Hortonworks und Cloudera.

Amazon, Microsoft, Google und IBM bieten ebenfalls eine Vielzahl an Data Lake Tools neben ihren Standard Cloudspeicher Diensten. Damit können Sie Ihren Data Lake auf dem Firmengelände oder in einer Cloud aufbauen.

Wann Sie einen Data Lake vermeiden sollten

Ein Data Lake ist nicht für jedermann geschaffen. Manche Unternehmen brauchen sie nicht und im schlimmsten Fall macht eine Anschaffung alles nur noch schlimmer. Hiskey weist zum Beispiel darauf hin, dass Data Lakes nichts für Echtzeitarbeit ist. „Wenn Sie nach Echtzeit- und Up-to-Date Infos suchen, ist ein Data Lake keine Lösung für Sie. So ein Lake ist für historische Daten. Sie brauchen ein schnelles, transaktionelles System.“

Wilhelmy sagt, dass manche Branchen auf Grund ihrer unorganisierten Natur nicht mit Data Lakes arbeiten könnten. „Es gibt keine starke Datensteuerung von beliebigen Bits und Daten. Niemand im Bereich eines Data Lakes versteht diese geführten Prozesse. Eine Vorraussetzung wäre eine starke Datenführungs Position. Die Organisation müsste auf einem mittelmäßigen oder fortgeschrittenen Level stattfinden, um Datenprozesse in einem Data Lake zu steuern. Die Daten müssen eingeführt und bereinigt und an die Organisation weitergegeben werden.“

Joshua Greenbaum, Chefanalytiker bei Enterprise Applications Consulting, glaubt zudem, dass Data Lakes überhaupt keine gute Idee sind. „In den meisten Fällen sind Data Lakes ein Zeichen von Faulheit auf der Seite der IT und kein Fall von strategischem Denken. Der Hintergedanke: Lasst uns unsere Daten an einem Ort bunkern. Wir kümmern uns dann später darum was wir damit machen sollten.“, meint er.

Greenbaum argumentierte, dass man, wenn man das Problem nicht kennt, es durch das Ansammeln von Steinen mit denen man eines Tages etwas bauen könnte, zu lösen versucht. „Wenn man aber keinen Plan hat, hat man nur einen Haufen Steine. Was, wenn man aber Holzbalken braucht? Wenn man hingegen mit einem Design anfängt, weiß man was benötigt wird.“

Sein Zynismus stammt von den Erfahrungen mit Datenlagern, bei denen genau das gleiche passiert ist. „Diesen Film haben wir bereits einmal gesehen. Zwar mit anderen Schauspielern, aber die Geschichte und das Ende sind die gleichen. Sie verschwenden eine große Menge Geld, wenn Sie an das Anlegen eines Data Lakes genauso ohne Strategie herangehen, wie damals an das Datenlager.“

Ein Data Lake ohne Grund ist ein teurer „Für alle Fälle“ Zugang. Wer jedoch strategisch an die Sache herangeht, findet in einem Data Lake einen exzellenten Weg um Informationen zu speichern, die man über die Jahre unterschiedlich analysieren und verwenden möchte.

*Andy Patrizio schreibt für InfoWorld.