3 Wege zur Anwendung von Agile auf Data Science und Dataops

Es macht Sinn, einen agilen Ansatz für Dashboards, Modelle für maschinelles Lernen, Bereinigung von Datenquellen und Data Governance zu verfolgen. [...]

devops-3148408_1920 (1) — Durch die Anwendung agiler Methoden verfügen Unternehmen über eine gut etablierte Struktur, einen Prozess und Tools zur Priorisierung, Planung und Bereitstellung datengesteuerter Auswirkungen (c) Pixabay.com

Nahezu jedes Unternehmen versucht, datengetriebener zu werden, in der Hoffnung, Datenvisualisierungen, Analysen und maschinelles Lernen für Wettbewerbsvorteile zu nutzen. Die Bereitstellung verwertbarer Erkenntnisse durch Analysen erfordert ein starkes Dataops-Programm zur Datenintegration und ein proaktives Data-Governance-Programm, das sich mit Datenqualität, Datenschutz, Richtlinien und Sicherheit auseinandersetzt.

Die Bereitstellung von Dataops, Analysen und Governance ist ein bedeutender Bereich, der es erfordert, die Beteiligten auf Prioritäten auszurichten, mehrere Technologien zu implementieren und Menschen mit unterschiedlichen Hintergründen und Fähigkeiten zusammenzubringen. Agile Methoden können den Arbeitsprozess so gestalten, dass multidisziplinäre Teams dabei unterstützt werden, Prioritäten zu setzen, zu planen und erfolgreich einen Mehrwert für das Unternehmen zu schaffen.

Agile Methoden können Daten- und Analyseteams auch dabei helfen, das Feedback von Kunden, Interessengruppen und Endbenutzern zu erfassen und weiterzuverarbeiten. Das Feedback sollte zu Verbesserungen der Datenvisualisierung, Neukalibrierung des maschinellen Lernmodells, Erhöhung der Datenqualität und Einhaltung der Data Governance führen.

Definieren eines agilen Prozesses für Datenwissenschaft und Dataops

Die Anwendung agiler Methoden auf den Lebenszyklus der Analytik und des maschinellen Lernens stellt eine bedeutende Chance dar, erfordert jedoch eine Neudefinition einiger Begriffe und Konzepte. Zum Beispiel:

Anstelle eines agilen Produkteigentümers kann ein agiles Datenwissenschaftsteam von einem Analytikverantwortlichen geleitet werden, der dafür zuständig ist, Geschäftsergebnisse aus den gelieferten Erkenntnissen zu erzielen.

Datenwissenschaftsteams ergänzen manchmal neue Erfahrungsberichte von Anwendern mit Verbesserungen an Dashboards und anderen Tools, aber im weiteren Sinne liefern sie umsetzbare Erkenntnisse, verbesserte Datenqualität, Automatisierung von Dataops, verbesserte Data Governance und andere Ergebnisse. Der Verantwortliche für die Analysen und das Team sollten die zugrunde liegenden Anforderungen für all diese Ergebnisse im Backlog erfassen.

Agile Datenforschungsteams sollten multidisziplinär sein und können Dataops-Ingenieure, Datenmodellierer, Datenbankentwickler, Data-Governance-Spezialisten, Datenwissenschaftler, Bürgerdatenwissenschaftler, Datenverwalter, Statistiker und Experten für maschinelles Lernen umfassen. Die Zusammensetzung des Teams hängt vom Arbeitsumfang und von der Komplexität der Daten und der erforderlichen Analysen ab.

Ein agiles Datenwissenschaftsteam wird wahrscheinlich mehrere Arten von Arbeit haben. Hier sind drei primäre, die Rückstände und Sprint-Verpflichtungen ausgleichen sollten.

1. Entwickeln und Aktualisieren von Analysen, Dashboards und Datenvisualisierungen

Data-Science-Teams sollten Dashboards konzipieren, um Endbenutzern bei der Beantwortung von Fragen zu helfen. Ein Vertriebs-Dashboard kann z.B. die Frage beantworten: „In welchen Vertriebsgebieten hat der jeweilige Mitarbeiter in den letzten 90 Tagen die meisten Vertriebsaktivitäten durchgeführt? Ein Dashboard für agile Softwareentwicklungsteams kann die Frage beantworten: „Wie produktiv war das Team in den letzten drei Versionen bei der Bereitstellung von Funktionen, der Bewältigung technischer Probleme und der Behebung von Produktionsfehlern?“

Agile Anwenderberichte sollten drei Fragen beantworten: Wer sind die Endbenutzer? Welches Problem wollen sie gelöst haben? Warum ist das Problem wichtig? Diese Fragen bilden die Grundlage für das Schreiben agiler User Stories, die Analysen, Dashboards oder Datenvisualisierungen liefern. Die Fragen richten sich daran, wer das Dashboard verwenden möchte und welche Antworten er benötigt.

Dann ist es hilfreich, wenn Interessenvertreter und Endbenutzer eine Hypothese zu einer Antwort liefern und angeben, wie sie beabsichtigen, die Ergebnisse umsetzbar zu machen. Die Beantwortung der dritten Frage (warum ist das Problem wichtig), die in agilen Benutzergeschichten behandelt werden sollte, wird durch die Art und Weise unterstützt, wie die Erkenntnisse umsetzbar werden und wie sie sich auf das Geschäft auswirken.

Die erste Version eines Tableau- oder Power-BI-Dashboards sollte ein „minimal umsetzbares Dashboard“ sein, das gut genug ist, um es mit den Endbenutzern zu teilen und Feedback zu erhalten. Die Benutzer sollten das Datenwissenschaftsteam wissen lassen, wie gut das Dashboard ihre Fragen beantwortet und wie es verbessert werden kann. Der Eigentümer des Analyseprodukts sollte diese Verbesserungen in den Rückstand nehmen und erwägen, sie in zukünftigen Sprints zu priorisieren.

2. Entwicklung und Verbesserung von Modellen für maschinelles Lernen

Der Prozess der Entwicklung analytischer und maschineller Lernmodelle umfasst die Segmentierung und Markierung von Daten, die Extraktion von Merkmalen und die Ausführung von Datensätzen durch verschiedene Algorithmen und Konfigurationen. Agile Datenforschungsteams könnten agile User Stories aufzeichnen, um Daten für die Modellentwicklung vorzubereiten und dann für jedes Experiment separate Stories zu erstellen. Die Transparenz hilft den Teams, die Ergebnisse von Experimenten zu überprüfen, die nächsten Prioritäten zu bestimmen und zu diskutieren, ob sich die Ansätze zu vorteilhaften Ergebnissen verdichten.

Es gibt wahrscheinlich separate User Stories, um Modelle aus dem Labor in Produktionsumgebungen zu bringen. Diese Geschichten sind für die Datenwissenschaft und das maschinelle Lernen entwickelt worden und umfassen vermutlich die Skripting-Infrastruktur, die Automatisierung von Modelleinsätzen und die Überwachung der Produktionsprozesse.

Sobald die Modelle in Produktion sind, hat das Datenwissenschaftsteam die Verantwortung, sie zu pflegen. Wenn neue Daten eintreffen, können die Modelle vom Ziel abweichen und eine Rekalibrierung oder Überarbeitung mit aktualisierten Datensätzen erfordern. Fortgeschrittene Machine-Learning-Teams von Unternehmen wie Twitter und Facebook führen kontinuierliche Schulungen durch und rekalibrieren Modelle mit neuen Schulungsdatensätzen.

3. Entdecken, Integrieren und Bereinigen von Datenquellen

Agile datenwissenschaftliche Teams sollten immer nach neuen Datenquellen suchen, um ihre strategischen Data Warehouses und Datenseen zu integrieren und anzureichern. Ein wichtiges Beispiel dafür sind Daten, die in SaaS-Tools gespeichert sind, die von Marketingabteilungen für das Erreichen von Interessenten oder die Kommunikation mit Kunden verwendet werden. Andere Datenquellen könnten zusätzliche Perspektiven in Bezug auf Lieferketten, Kundendemografie oder Umweltkontexte bieten, die sich auf Kaufentscheidungen auswirken.

Analysten sollten agile Rückstände mit Story Cards füllen, um neue Datenquellen zu recherchieren, Beispieldatensätze zu validieren und priorisierte Datensätze in die primären Datenspeicher zu integrieren. Wenn agile Teams neue Datenquellen integrieren, empfiehlt es sich für die Teams, die Datenintegration zu automatisieren, Datenvalidierungs- und Qualitätsregeln zu implementieren und Daten mit Stammdatenquellen zu verknüpfen.

Julien Sauvage, Vizepräsident für Produktmarketing bei Talend, schlägt die folgenden Richtlinien für den Aufbau von Vertrauen in Datenquellen vor. „Heutzutage müssen Unternehmen mehr Vertrauen in die Daten gewinnen, die in ihren Berichten und Dashboards verwendet werden. Dies lässt sich mit einem integrierten Vertrauensscore erreichen, der auf Datenqualität, Datenpopularität, Compliance und benutzerdefinierten Bewertungen basiert. Ein Vertrauensscore ermöglicht es dem Datenpraktiker, die Auswirkungen von Datenbereinigungsaufgaben in Echtzeit zu sehen, wodurch Datenqualitätsprobleme iterativ behoben werden können.

Das Datenwissenschaftsteam sollte auch Datenschulden erfassen und priorisieren. In der Vergangenheit fehlten den Datenquellen Eigentümer, Verwalter und Implementierungen der Data Governance. Ohne die richtigen Kontrollen verfügten viele Dateneingabeformulare und Tools nicht über eine ausreichende Datenvalidierung, und integrierte Datenquellen verfügten nicht über Bereinigungsregeln oder Ausnahmebehandlung. Viele Organisationen haben einen Berg von schmutzigen Daten in Data Warehouses und Seen, die für Analysen und Datenvisualisierungen verwendet werden.

Genauso wie es keine schnelle Lösung für die technische Verschmutzung gibt, sollten agile Datenforschungsgruppen Prioritäten setzen und Datenverschuldung iterativ angehen. Wenn der Verantwortliche für die Analyse User Stories für die Bereitstellung von Analysen hinzufügt, sollte das Team prüfen und sich fragen, welche zugrunde liegenden Datenschulden im Rückstand aufgeschlüsselt und priorisiert werden müssen.

Implementierung von Data Governance mit agilen Methoden

Die von mir vorgestellten Beispiele helfen Datenforschungsteams, die Datenqualität zu verbessern und Tools für die Nutzung von Analysen in der Entscheidungsfindung sowie für Produkte und Dienstleistungen bereitzustellen.

In einem proaktiven Data-Governance-Programm werden Fragen der Datenpolitik, des Datenschutzes und der Sicherheit priorisiert und parallel zur Arbeit an der Bereitstellung und Verbesserung von Datenvisualisierungen, Analysen, maschinellem Lernen und Dataops behandelt. Manchmal fällt die Arbeit an der Datenverwaltung in den Zuständigkeitsbereich von Datenwissenschaftsteams, aber häufiger ist eine separate Gruppe oder Funktion für die Datenverwaltung zuständig.

Unternehmen haben wachsende Wettbewerbsanforderungen in Bezug auf Analyse- und Data-Governance-Vorschriften, Compliance und sich entwickelnde Best Practices. Durch die Anwendung agiler Methoden verfügen Unternehmen über eine gut etablierte Struktur, einen Prozess und Tools zur Priorisierung, Planung und Bereitstellung datengesteuerter Auswirkungen.

*Isaac Sacolick ist der Autor von Driving Digital: The Leader’s Guide to Business Transformation through Technology (Leitfaden für Unternehmensumwandlung durch Technologie), der viele Praktiken wie Agile, Devops und Datenwissenschaft behandelt, die für erfolgreiche digitale Umwandlungsprogramme entscheidend sind. Sacolick ist ein anerkannter Top-Social-CIO, ein langjähriger Blogger bei Social, Agile and Transformation und CIO.com und Präsident von StarCIO.