Analytics und Big Data: die wichtigsten Buzzwords

Big Data, Fast Data, Small Data, Dark Data – der Hype um die datengetriebene Wirtschaft spült immer mehr Buzzwords in die Diskussion. Doch was verbirgt sich wirklich dahinter? Unser Glossar erklärt die wichtigsten Begriffe. [...]

In der Datenwirtschaft herrscht Goldgräberstimmung. Rund um die Hype-Themen Big Data und Analytics haben sich unzählige Hersteller, Berater und Analysten positioniert. In Marketing-Broschüren, Studien oder Analyst Views verfallen sie in einen Fachjargon, der mit neuen Begriffen gespickt und selbst für Insider manchmal kaum noch verständlich ist. Eines haben diese Data Buzzwords gemeinsam: Eine klare Definition sucht man meist vergebens. Unser Glossar bringt Licht ins Dunkel und erklärt die wichtigsten Begriffe, die IT- und Business-Entscheider kennen sollten.
Fast Data
Das Buzzword mit der gefühlt höchsten Wachstumsrate heißt derzeit „Fast Data“. Gemeint sind damit Daten, deren Nutzwert mit der Zeit abnimmt, erläutert Tony Baer, Principal Analyst beim amerikanischen Beratungsunternehmen Ovum. Er habe den Begriff bereits 2012 geprägt, wirft sich der Experte in die Brust. Im Prinzip geht es dabei etwa um Twitter Feeds und Streaming Data, die in Echtzeit erfasst und ausgewertet werden müssen. Auf diese Weise lassen sich unmittelbar Entscheidungen treffen oder Reaktionen anstoßen. Im Finanzsektor beispielsweise verlassen sich Trader auf komplexe Algorithmen für Realtime-Analysen. Auch der Hochfrequenzhandel würde ohne Fast Data nicht funktionieren.
Ermöglicht wurde der Siegeszug von Fast Data durch immer größere Bandbreiten, günstige Standardhardware und Realtime-Analytics-Systeme, so der Ovum-Experte. Für Nik Rouda, Senior Analyst bei der Enterprise Strategy Group, kann sich der Begriff auf mehrere Aspekte beziehen: schnelle Datenerfassung etwa, Streaming, schnelle Datenaufbereitung oder schnelle Analyse und User Response. „Zum größten Teil ist das Marketing-Hype“, urteilt Rouda, doch der Fachbegriff zeige auf unterschiedliche Weise, wie wichtig das Thema Geschwindigkeit in diesem Umfeld sei.
Slow Data
Am anderen Ende der Skala findet sich „Slow Data“. Wie der Name andeutet, handelt es sich um Daten, die in geringerem Tempo entstehen und in der Regel keine unmittelbare Analyse erfordern. Ovum-Analyst Baer nennt als Beispiel ein Monitoring-System für Meeresgezeiten. In den meisten Fällen bedarf es keiner Realtime-Updates. Gelagert werden Daten dieser Kategorie entsprechend eher in einem Data Lake für eine spätere Batch-Verarbeitung.
Small Data
„Small Data“ ist „alles, was auf einen Laptop passt“, sagt Gregory Piatetsky-Shapiro, Chef der Analytics-Beratungsfirma KDnuggets. Für Rouda macht der Begriff deutlich, dass viele Analysen noch immer anhand von wenigen Datenquellen gefahren werden, häufig auf einem Laptop mit leichtgewichtigen Apps – nicht selten schlicht mit Excel.
Medium Data
„Medium Data“ liegt irgendwo zwischen den Extremen. Geht es um viele Petabyte an Daten, die mit Technologien wie Hadoop oder MapReduce analysiert werden, handelt es sich um Big Data, erläutert Baer. Viele analytische Probleme drehten sich aber gar nicht um Datenmengen im Petabyte-Bereich. Gehe es also eher um „mittelgroße“ Datenbestände, die sich etwa mithilfe von Apache Spark auswerten lassen, handele es sich um Medium Data.
Dark Data
Dark Data beschreibt typischerweise Informationen, die übersehen oder zu wenig genutzt werden. „Man weiß nicht, dass sie vorhanden sind, wie darauf zugegriffen werden kann oder es gibt keine Erlaubnis für einen Zugriff“, erklärt Rouda die verschiedenen Szenarien. In einigen Fällen gebe es schlicht noch keine Systeme für die Analyse. „Viel zu oft“ finde sich Dark Data in klassischen Datenbanken, Data Warehouses und Data Lakes. Derart zugangsbeschränkte oder unzureichend dokumentierte Datenbestände werden häufig als „Dark Web“ bezeichnet, so Ovum-Experte Baer. Um Licht ins Dunkel zu bringen, brauche es in der Regel Data Discovery Services, die oft auf Machine-Learning-Konzepte zurückgreifen.
Dirty Data
Der Begriff Dirty Data ist in gewisser Weise wörtlich zu verstehen. Denn er beschreibt schlicht Datenbestände, die noch keinen Clean-Up-Prozessen unterzogen wurden. „Es liegt in der Natur der Sache, dass Dinge solange schmutzig sind, bis sie jemand reinigt“, erklärt Baer. „Clean“ seien Daten also erst, wenn sie diverse einschlägige Routinen durchlaufen hätten. Rouda zählt zu diesen Clean-Up-Prozessen beispielsweise Datenaufbereitung, -anreicherung und -transformation.
* Wolfgang Herrmann ist Deputy Editorial Director der IDG-Publikationen COMPUTERWOCHE und CIO.

Mehr Artikel

Unternehmen legen ihren Fokus auf Investitionen zur Performancesteigerung durch Künstliche Intelligenz. (c) Pexels
News

GenAI: Vom Experiment zum strategischen Werkzeug

KI hat sich von einem Hype zu einem strategischen Gamechanger entwickelt. Laut einer Studie von NTT DATA ist die Experimentierphase für generative KI (GenAI) endgültig vorbei. Stattdessen stehen nun konkrete Pläne zur langfristigen Nutzung im Vordergrund – mit dem Ziel, Performance, Arbeitsplatzkultur, Compliance, Sicherheit und Nachhaltigkeit zu optimieren. […]

News

Internationale Konferenz zeigt den Weg zur datengetriebenen Zukunft

Am 13. November 2024 fand im Bundesministerium für Klimaschutz, Umwelt, Energie, Mobilität, Innovation und Technologie (BMK) die Global Data Spaces Connect 2024 (GDSC24) statt, eine internationale Plattform, die Akteur:innen aus Wirtschaft, Wissenschaft und öffentlicher Verwaltung zu einem Austausch über den aktuellen Stand und die Zukunft der Datenräume (Data Spaces) zusammenbrachte. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*