Big Data, Fast Data, Small Data, Dark Data – der Hype um die datengetriebene Wirtschaft spült immer mehr Buzzwords in die Diskussion. Doch was verbirgt sich wirklich dahinter? Unser Glossar erklärt die wichtigsten Begriffe. [...]
Das Buzzword mit der gefühlt höchsten Wachstumsrate heißt derzeit „Fast Data“. Gemeint sind damit Daten, deren Nutzwert mit der Zeit abnimmt, erläutert Tony Baer, Principal Analyst beim amerikanischen Beratungsunternehmen Ovum. Er habe den Begriff bereits 2012 geprägt, wirft sich der Experte in die Brust. Im Prinzip geht es dabei etwa um Twitter Feeds und Streaming Data, die in Echtzeit erfasst und ausgewertet werden müssen. Auf diese Weise lassen sich unmittelbar Entscheidungen treffen oder Reaktionen anstoßen. Im Finanzsektor beispielsweise verlassen sich Trader auf komplexe Algorithmen für Realtime-Analysen. Auch der Hochfrequenzhandel würde ohne Fast Data nicht funktionieren.
Am anderen Ende der Skala findet sich „Slow Data“. Wie der Name andeutet, handelt es sich um Daten, die in geringerem Tempo entstehen und in der Regel keine unmittelbare Analyse erfordern. Ovum-Analyst Baer nennt als Beispiel ein Monitoring-System für Meeresgezeiten. In den meisten Fällen bedarf es keiner Realtime-Updates. Gelagert werden Daten dieser Kategorie entsprechend eher in einem Data Lake für eine spätere Batch-Verarbeitung.
„Small Data“ ist „alles, was auf einen Laptop passt“, sagt Gregory Piatetsky-Shapiro, Chef der Analytics-Beratungsfirma KDnuggets. Für Rouda macht der Begriff deutlich, dass viele Analysen noch immer anhand von wenigen Datenquellen gefahren werden, häufig auf einem Laptop mit leichtgewichtigen Apps – nicht selten schlicht mit Excel.
„Medium Data“ liegt irgendwo zwischen den Extremen. Geht es um viele Petabyte an Daten, die mit Technologien wie Hadoop oder MapReduce analysiert werden, handelt es sich um Big Data, erläutert Baer. Viele analytische Probleme drehten sich aber gar nicht um Datenmengen im Petabyte-Bereich. Gehe es also eher um „mittelgroße“ Datenbestände, die sich etwa mithilfe von Apache Spark auswerten lassen, handele es sich um Medium Data.
Dark Data beschreibt typischerweise Informationen, die übersehen oder zu wenig genutzt werden. „Man weiß nicht, dass sie vorhanden sind, wie darauf zugegriffen werden kann oder es gibt keine Erlaubnis für einen Zugriff“, erklärt Rouda die verschiedenen Szenarien. In einigen Fällen gebe es schlicht noch keine Systeme für die Analyse. „Viel zu oft“ finde sich Dark Data in klassischen Datenbanken, Data Warehouses und Data Lakes. Derart zugangsbeschränkte oder unzureichend dokumentierte Datenbestände werden häufig als „Dark Web“ bezeichnet, so Ovum-Experte Baer. Um Licht ins Dunkel zu bringen, brauche es in der Regel Data Discovery Services, die oft auf Machine-Learning-Konzepte zurückgreifen.
Der Begriff Dirty Data ist in gewisser Weise wörtlich zu verstehen. Denn er beschreibt schlicht Datenbestände, die noch keinen Clean-Up-Prozessen unterzogen wurden. „Es liegt in der Natur der Sache, dass Dinge solange schmutzig sind, bis sie jemand reinigt“, erklärt Baer. „Clean“ seien Daten also erst, wenn sie diverse einschlägige Routinen durchlaufen hätten. Rouda zählt zu diesen Clean-Up-Prozessen beispielsweise Datenaufbereitung, -anreicherung und -transformation.
Be the first to comment