Data Science & Analytics Teams maximale Agilität ermöglichen

Moderne Datenarchitektur-Frameworks wie Data Mesh helfen die notwendige Agilität für Data Science & Analytics Teams beizubehalten. Was ist bei der Implementierung zu beachten? [...]

businessman-g2d558e111_1280 — Foto: GerdAltmann/Pixabay

Der langfristige Erfolg von Tech-Unternehmen beruht nicht allein auf der Einzigartigkeit des Produkts, das angeboten wird, sondern zu einem beträchtlichen Anteil auch an der Verarbeitung der Daten, die generiert werden und die im Optimalfall nämlich zur fortlaufenden Optimierung des Produkts beitragen.

Zudem wächst im Zuge der weiter voranschreitenden Digitalisierung einerseits in rasanter Weise die täglich generierte Datenmenge, andererseits stehen immer ausgefeiltere Möglichkeiten zur Verfügung, diese Datenmengen zu analysieren. Unternehmen, die heutzutage ihre Data Science & Analytics Teams vernachlässigen (oder im schlimmsten Falle über keine verfügen), laufen Gefahr, in kürzester Zeit von der Konkurrenz abgehängt und am Ende irrelevant für ihren Markt zu werden – denn dann wird Big Data zu einem Big Problem.

Tools und Strukturen müssen ständig auf ihre Effizienz überprüft werden

Erst wenn es gelingt, die vorhandenen Daten effizient zu analysieren und die richtigen Schlüsse daraus zu ziehen, können sich Organisationen einen Vorteil gegenüber den Wettbewerbern verschaffen. Aufgrund der kontinuierlichen und vor allem von hohem Tempo geprägten Weiterentwicklung im Bereich Data Science & Analytics dürfen sich Unternehmen zudem nicht auf dem Status Quo ausruhen, selbst wenn dieser solide ist, sondern sollten regelmäßig die verwendeten Frameworks und Tools überprüfen und gegebenenfalls Anpassungen vornehmen.

Jedoch sollte sich dieser Optimierungsprozess nicht nur auf die rein technische Ebene beschränken. Genauso wichtig ist es, Teamstrukturen und Arbeitsprozesse kritisch zu hinterfragen. Denn diese müssen auf die genutzte Technik bestmöglich abgestimmt sein, damit die Mitarbeitenden ihr volles Potential ausschöpfen und die gewünschten Erkenntnisse liefern können.

Und auch hier gilt: Je transparenter und verständlicher den Teammitgliedern nicht nur vermittelt wird, was sie tun sollen, sondern auch weshalb es auf diese bestimmte Art und Weise passieren soll, desto besser sind die Ergebnisse und desto größer wird außerdem die Motivation innerhalb der Teams sein.

Cloud-basierte Datenspeicherung und -verarbeitung ist ein Muss

Nach wie vor gilt: Zeit ist Geld. Gelingt es Unternehmen also nicht, konstant ihre Prozesse zu optimieren, verlieren sie Geld. Dies trifft vor allem auf die Datenverarbeitung zu. Teilweise speichern Unternehmen ihre Daten heutzutage noch auf physischen Servern in ihren eigenen Office-Räumlichkeiten.

Doch die Leistung dieser Rechner ist begrenzt. Gleichzeitig werden – wie bereits erwähnt – die Datenmengen, mit denen gearbeitet wird, größer, die Algorithmen werden komplexer. Resultat: Die benötigte Rechenleistung nimmt immer enormere Ausmaße an. Aus diesem Grund führt realistisch betrachtet kein Weg daran vorbei, auf eine cloud-basierte Lösung umzusteigen.

Dabei ist es nicht nur die zeitliche Komponente – sprich die Schnelligkeit, mit der die Datenverarbeitung durchgeführt wird –, die überzeugen sollte, sich vom tradierten System zu verabschieden. So lassen sich Rechenprozesse sehr viel flexibler skalieren, je nachdem, welche Datenmengen für welchen Algorithmus bearbeitet werden müssen.

Außerdem können die Data Teams ganz konkret den Return on Investment bestimmen und die dezidierten Kosten sehen, um ein bestimmtes Modell zu durchlaufen, welche sich anschließend mit dem expliziten Effekt dieses Modells auf das laufende Geschäft abgleichen lassen. Wer diese Erkenntnisse wieder in den Arbeitskreislauf einspeist, wird die Effizienz von Data Science & Analytics deutlich nach oben schrauben.

Um darüber hinaus eine einheitliche Datenverarbeitung zu erreichen, empfehle ich die Nutzung von Tools wie z.B. DBT. Dieser Transformations-Flow ermöglicht es den Teams, Analytics-Codes schnell und kollaborativ einzusetzen und dabei bewährte Engineering-Verfahren wie Modularität, Portabilität, CI/CD und Dokumentation zu befolgen.

Mit DBT können alle Datentransformationen als SQL ausgedrückt werden, was ich seit geraumer Zeit als die lingua franca von Data Analytics betrachte.

Ist Data Mesh so fortschrittlich wie viele behaupten?

Nun ist es natürlich eine Option, hier und da punktuell neue Technologien einzusetzen. Jedoch besteht dabei die Gefahr, sich im Klein Klein zu verlieren und die alles überspannende Vision außer Acht zu lassen. Entscheidet man sich als Organisation, das Data Science & Analytics Team auf das nächste Level zu hieven und die damit verbundenen Investitionen zu tätigen, empfehle ich auch ein modernes Datenarchitektur-Framework zu installieren. Zu den vielversprechendsten Ansätzen zählt hier Data Mesh, das sich – wird es umfassend etabliert – durch ein hohes Maß an Agilität auszeichnet.

So ist der Grad an Dezentralisierung höher als bei anderen älteren Ansätzen wie zum Beispiel einem zentralen Data Warehouse. Die Autonomie der einzelnen Teams nimmt beachtlich zu, die Erfassung und Verarbeitung spezifischer Daten liegt verstärkt bei diesen. Dadurch werden sie automatisch befähigt, selbstständiger zu entscheiden und zu arbeiten.

Prozesse, die zuvor aufgrund von umfangreichen Abstimmungsschleifen sehr behäbig waren, werden dadurch enorm beschleunigt. Gleichzeitig werden für alle Mitarbeitenden geltende Richtlinien etabliert, die wie der zentrale Datenmarktplatz dafür sorgen, dass das gesamte Unternehmen Zugriff auf die vorhandenen Daten hat und diese auch möglichst einfach nutzen kann.

Die Implementierung eines Frameworks wie Data Mesh erhöht zudem die Attraktivität des Unternehmens, um gerade in Zeiten des Fachkräftemangels neue Mitarbeitende für sich zu gewinnen. Die Vorteile für die Data Science & Analytics Teams lassen sich klar benennen: Es benötigt weitaus weniger Zeit, die richtigen Daten ausfindig zu machen und diese dann zu verbinden und zu säubern.

Grundsätzlich können die Teams schneller die gewünschten Insights generieren und der Anteil der Zeit, die sie für aufwendige Aufgaben, die den größtmöglichen Effekt haben, aufwenden, steigt aufgrund der verbesserten Auffindbarkeit und Zugänglichkeit der Daten und der höheren Qualität der Daten, die durch die allgemein gültigen und vom Framework definierten Prinzipien hervorgerufen wird.

Wie zu Beginn kurz angerissen ist es aus meiner Sicht unumgänglich, die Teamstrukturen neu auszurichten, wenn man die technisch-strukturelle Ebene des Data Science & Analytics Teams einer Frischzellenkur unterzieht.

Das bedeutet, dass vor allem – aber nicht nur – Hypergrowth Organisationen diese Teams ausdifferenzierter aufstellen sollten. Die Prämisse muss sein, die spezifischen Verantwortlichkeiten beruhend auf dem jeweiligen Verwendungszweck der Daten zuzuteilen. So haben wir in unserem Unternehmen die Data Teams in Decision Scientist, Data Scientist und Analytics Engineer untergliedert. Insbesondere die Einführung der Rolle des Analytics Engineers erwies sich als einer der Schlüssel zum Erfolg im Vergleich zu den traditionellen Rollen des Business Intelligence Developers oder des Database Engineers.

Diese neue Rolle erfordert vor allem hervorragende Kommunikationsfähigkeiten, da sie noch enger mit der Business-Seite der Organisation verbunden sind, um deren akute Bedürfnisse und den erwarteten Wert der Daten aus erster Hand zu erfahren. Außerdem sind Analytics Engineers selbst aktive Nutzer:innen der Daten, was sich positiv auf die Datenqualität auswirkt.

Es muss in Data Science & Analytics Teams investiert werden

Sämtliche in diesem Beitrag beschriebenen Veränderungen bedürfen vor allem eines: den Willen zu investieren – das bezieht sich natürlich auf den monetären Aspekt, aber auch auf die dafür aufzubringenden Kapazitäten.

Von der Entscheidungsebene bis zu den einzelnen Team-Mitgliedern müssen alle an einem Strang ziehen, um das System so grundlegend neu zu justieren. Aus meiner persönlichen Erfahrung kann ich jedoch bestätigen, dass dieses Investment Unternehmen, die den Anspruch haben, den maximalen Nutzwert aus Big Data zu ziehen, einen entscheidenden Schritt voranbringt.