Big Data? Weniger ist oft mehr

Was bringen große Datenmengen, wenn man keine Erkenntnisse daraus ziehen kann? Und was ist, wenn man zu wenige Daten hat? [...]

data-g45c917393_1280 — Foto: GerdAltmann/Pixabay

Jedes Unternehmen, das in einer sich wandelnden und beschleunigenden Wirtschaft dauerhaft Erfolg haben möchte, muss seine Daten auswerten und gewinnbringend einsetzen. Daher lautet auch das Credo inzwischen oft: datenbasierte Fakten statt Bauchgefühl.

Doch sind die Datenmengen, die zur Verfügung stehen, quasi Fluch und Segen zugleich: Einerseits sind die Daten bares Geld wert, andererseits stehen Unternehmen vor der Mammutaufgabe, sie für ihr Geschäft effizient einzusetzen – also mit möglichst minimalem Aufwand den größtmöglichen Mehrwert aus den Daten zu ziehen. Daneben gibt es auch Unternehmen, die unter dem gegensätzlichen Problem leiden: zu wenige Daten. Das betrifft häufig kleinere und mittelständische Firmen.

Klein statt groß

Abhilfe soll Small Data schaffen – also das Auswerten kleinerer Datenmengen. „Small Data ist grundsätzlich keine gut und einheitlich umrissene Kategorie im Bereich der Datenverarbeitung“, erklärt Mathias Golombek. „Small Data sind Daten, die von ihrem Umfang, ihrer Aufbereitung und ihrem Format her für das menschliche Verständnis geeignet sind, und aus denen entsprechende Entscheidungen mittels Data Science abgeleitet werden können, wie es im Big-Data-Bereich bereits weithin bekannt und akzeptiert ist“, so der Chief Technology Officer des Datenbankspezialisten Exasol.

Small Data sind Datenaufkommen, die häufig nur einige Hundert Datenreihen umfassen und sich aus wenigen Datenquellen zusammensetzen. „Üblicherweise handelt es sich um Flatfiles wie CSV oder Excel oder kleinere relationale Datenbanktabellen“, so Michael Deuchert, Team Lead Data Analytics bei der IT-Beratung it-novum.

Zwar benötigen etwa Methoden der Künstlichen Intelligenz meist große Mengen an Daten, aber es gibt auch spezialisierte KI-Ansätze, die mit deutlich weniger und kleineren Datensätzen zurechtkommen. Beispiele für solche Small-Data-Algorithmen sind laut Mathias Golombek Data Labeling, künstliche beziehungsweise synthetische Datengenerierung oder Bayes’sche Methoden.

Dass Big Data nicht für alle Anwendungsszenarien erforderlich ist, bestätigt Michael Feindt. Er ist Gründer und Chief Scientific Advisor bei Blue Yonder, einem Spezialisten für Supply-Chain-Management. „Menschliche Entscheidungen basieren in der Regel auf Small Data. Mit großen Datenmengen wäre der Mensch vollkommen überfordert.“

Zudem hänge die erforderliche Datenbasis immer von der Eindeutigkeit der Fragestellung ab. So reichten bei klaren Kausalzusammenhängen wenige Informationen aus, um sinnvolle Entscheidungen zu treffen.

Schlüssel zur Demokratisierung

Der aktuelle Small-Data-Trend macht deutlich, dass eine sinnvolle Nutzung von Daten und Technologien wie Künstlicher Intelligenz nicht nur im großen Stil stattfinden kann. Damit ist Small Data so etwas wie der Schlüssel für die Demokratisierung rund um Big Data und verschafft Unternehmen jeder Größe Zugriff auf diese Technologien.

„Als menschlicher Betrachter kann man bei Small Data die Datenmenge noch gut überblicken und einzelne Datensätze besser nachvollziehen, als dies bei mehreren Millionen Zeilen an Informationen der Fall wäre.“
Michael Deuchert- Team Lead Data Analytics bei it-novum

Auch nach Ansicht von Max Hille, Head of Consulting beim Fullservice-Provider Cloudflight, trägt Small Data in hohem Maß zur Demokratisierung bei. Laut Hille manifestiert sich das beispielsweise beim Training einer komplexen KI-Anwendung. Wenn dies anhand sehr großer Datenmengen passiere, dann sei in den meisten Fällen die Erhebung und Aufbereitung der Daten aufwendig.

Dies zeige sich sowohl in der benötigten Zeit – kontinuierliches Sammeln von Daten – als auch in manuellen Tätigkeiten – Annotieren von Daten, um sie für KI-Trainings zugänglich zu machen. „Beides kann zum Show-Stopper werden, wenn eine KI-Anwendung dadurch schlichtweg nicht mehr rentabel ist.“

Small Data ist somit insbesondere für kleinere Unternehmen relevant, die sehr gezielte Analysen auch mit übersichtlichen Datenmengen betreiben möchten. Solassen sich auch Technologien für automatische Analysen und sehr einfache Algorithmen nutzen.

„Small Data trägt in hohem Maß zur Demokratisierung neuer Technologien rund um Big Data und KI bei.“
Max Hille – Head of Consulting bei Cloudflight

Als menschlicher Betrachter könne man bei Small Data die Datenmenge noch gut überblicken, erklärt Michael Deuchert, und einzelne Datensätze besser nachvollziehen, als dies bei mehreren Millionen Zeilen an Informationen der Fall wäre.

„Die geringere Datengröße kann die Trainingszyklen und damit die Entwicklungszeiten von Machine-Learning-Algorithmen verkürzen.“ Damit sei dafür auch kein Cluster an Rechnern mehr notwendig, weil ein einzelner Server oder Arbeitsrechner in den meisten Fällen ausreiche.

Big Data versus Small Data

Grundsätzlich genügen oft schon wenige Zahlen, um den Geschäftsbetrieb im Unternehmen zu optimieren. Small Data hat hier, so Michael Feindt von Blue Yonder, eine ähnliche Bedeutung „wie ein gutes Bauchgefühl“. Vor allem Wissenschaftler seien immer bestrebt, die Erkenntnisse aus zahlreichen Experimenten, Untersuchungen und Beobachtungen in wenige Formeln, also Small Data, zu fassen. Ziel dabei sei es, mit wenigen Parametern viele Zusammenhänge zu erklären.

Der Idealfall trete folglich dann ein, wenn man mit einer geringen Datenmenge viele Vorhersagen treffen könne, die dann tatsächlich einträten.

Die Nutzung von Small Data muss auch nicht unbedingt mit hohen Investitionen in die IT-Infrastruktur einhergehen. Insofern ist Small Data laut Exasol-CTO Mathias Golombek gerade auch für kleinere Unternehmen interessant, die über keine riesigen Data-Warehouse-Systeme und Data-Science-Teams verfügen.

Und er betont: „Dabei ist Small Data aber nicht einfach nur eine Sparversion von Big Data.“ Es gebe im Gegenteil Einsatzbereiche, in denen überschaubare Datenmengen gegenüber datenintensiveren Ansätzen sogar im Vorteil seien. Die Demokratisierung solch neuer Technologien sei daher ein immens wichtiges Thema für Unternehmen. Know-how, Wettbewerbsvorteile und Marktmacht müssten nicht nur in den Händen einiger weniger liegen.

„Allerdings fehlen zurzeit leider gerade bei kleineren und mittleren Unternehmen sowohl das Bewusstsein über die Existenz als auch das Know-how über mögliche Anwendungsfälle von Small-Data-Technologien.“

Kleine Datenbasis – schlechte Analysen?

In Zusammenhang mit Künstlicher Intelligenz ist meist davon die Rede, dass große Datenmengen erforderlich sind. Lassen sich mit Small Data überhaupt robuste Modelle und wertvolle Prognosen bilden? „Ja, das funktioniert“, so die klare Meinung von Michael Feindt.

Allerdings: Es hänge von der jeweiligen Anwendung ab und klappe vor allem dann, wenn man bestimmte Zusammenhänge aus erforschten Naturgesetzen, Analogien oder sonstigen wissenschaftlichen Beobachtungen verstehe. Die zentrale Frage laute immer: „Wissen wir es schon oder müssen wir die entsprechenden Erkenntnisse erst aus den verfügbaren Daten extrahieren?“

Das gesammelte Wissen aus lexikalischen Werken wie Wikipedia beispielsweise gelte zum größten Teil als gesichert. Das müsse man in den meisten Fällen nicht noch einmal durch Untersuchungen verifizieren. „Wenn wir also Zugriff auf die relevanten Parameter in Form von Small Data haben, dann können wir diese für unsere Entscheidungen und Prognosen getrost verwenden.“

Große Datenmengen haben durch Small-Data-Ansätze jedoch keineswegs ausgedient, denn es gibt nach wie vor viele Bereiche, in denen umfassendere Datensätze letztlich auch mehr Informationen enthalten. Ebenso betrifft das mathematische KI-Algorithmen, die überhaupt nur mit großen Datenmengen funktionieren können.

Aber auch wenn ich als Unternehmen ausreichend Daten für Big Data habe – ergibt es nicht trotzdem Sinn, in einigen Bereichen auf Small Data zu setzen? Also mit kleinen, zugänglichen Daten zu arbeiten, die leicht zu verstehen sind? „Absolut“, ist sich Mathias Golombek von Exasol sicher.

„Die Vorteile hinsichtlich Agilität und Datenschutz sind für sehr viele Unternehmen gerade im Umgang mit personalisierten Kundendaten relevant. Außerdem sind Daten sehr oft zwar in großer Menge vorhanden, aber eben nicht ,sauber‘, strukturiert und somit bereit für die Analyse.“

Die zeitraubende und arbeitsintensive Bereinigung dieser Datenbestände und Datensilos werde erleichtert, indem man stattdessen auf verwandte Datensätze, strukturierte Modelle und synthetische Daten zurückgreife – oder nur ein deutlich kleineres Sampling der Daten nutze.

Michael Deuchert von it-novum betont, dass sich nicht alle Machine-Learning-Algorithmen für Small Data eignen. Insbesondere komplexere Verfahren wie Deep-Learning-Architekturen beziehungsweise künstliche neuronale Netzwerke erforderten eine umfangreiche Datenbasis, um aussagekräftige und verlässliche Ergebnisse zu liefern.

Ob komplexe Algorithmen erforderlich sind, sei abhängig vom konkreten Use-Case: „Nichtlineare Zusammenhänge lassen sich oft nur mit mächtigeren Algorithmen abbilden, wohingegen lineare Beziehungen auch durch simplere Modelle zu trainieren sind.“

Sind wichtige Informationen erst durch Verknüpfung mehrerer Datenquellen nutzbar, „dann könnte das auch gegen Small Data sprechen“. Für spezielle Anwendungen wie Text-Mining oder Computer-Vision sei der Einsatz von Small Data ebenfalls weniger sinnvoll, sie benötigten Deep-Learning-Algorithmen und idealerweise Big Data, um robuste Vorhersagen zu erzeugen.

Fazit & Ausblick

Sowohl für Big Data als auch für Small Data gilt: Gewisse Unsicherheitsfaktoren sind bei der Datenanalyse stets

zu berücksichtigen. So können beispielsweise einzelne Expertenmeinungen voneinander abweichen, was bestimmte Zahlen und Auswertungen betrifft.

Hier empfiehlt es sich laut Michael Feindt von Blue Yonder, einen Mittelwert heranzuziehen. Dabei müssten die Zahlen richtig interpretiert werden, um sie für künftige Planungen optimal nutzen zu können. „Kommen jedoch unvorhersehbare Ereignisse wie eine Pandemie oder ein Krieg ins Spiel, bedarf es wiederum großer Datenmengen, die viele unwägbare Einflussfaktoren miteinbeziehen.“

In jedem Fall sollten umfangreiche Rohdaten so zu Small Data verarbeitet werden, dass sie sich verstehen und optimal nutzen lassen. Dazu gehöre eine transparente Darstellung und Aufbereitung in Form von Übersichten, Grafiken oder Mindmaps.

Unternehmen müssen sich laut Max Hille von Cloudflight letztendlich bewusst sein, dass sie mit Small Data größeren Einschränkungen unterliegen. Diese beträfen die Qualität der Analysen und die Vielseitigkeit der Anwendungen. Zudem entstünde durch die Definition und Selektion der Small-Data-Pakete ein gewisser Aufwand.

„Der quantifizierbare Mehrwert bei komplexen Fragestellungen wird somit geringer sein als bei erfolgreichen Big-Data-Modellen.“ Er betont trotzdem, dass Small Data unter dem Strich zahlreiche Vorteile bietet.

*Konstantin Pfliegl ist Redakteur bei der Zeitschrift com! professional. Er hat über zwei Jahrzehnte Erfahrung als Journalist für verschiedene Print- und Online-Medien und arbeitete unter anderem für die Fachpublikationen tecChannel und Internet Professionell.