Big Data und KI: Wie Sie Datenprojekte erfolgreich meistern

Big Data und Maschinenlernen haben gewaltiges Nutzenpotenzial. Vorerst bleibt dies meist ungenutzt, weil die Herausforderungen unterschätzt werden. [...]

Franki_Chamaki_Unsplash_Daten_w492_h312 — (c) Franki Chamaki / Unsplash

Das Prinzip klingt einfach: Wir haben Unmengen an Daten, die man für Maschinenintelligenz und Big Data nutzt. Es scheint so natürlich! Doch die Wirklichkeit schaut anders aus. Firmen kaufen teure Applikationen und nutzen sie anschließend nur für recht banale Anwendungen oder gar nicht. Oder sie denken zuerst darüber nach, was sie mit ihren Daten machen könnten – was entschieden vernünftiger ist –, und kommen zum Schluss, dass ihnen für ihre Daten die konkreten Ideen fehlen.

Beides konnten wir in Forschung und Beratung mehrfach beobachten und bekommen es von Kolleginnen und Kollegen anderer Hochschulen bestätigt. Sie berichten an entsprechenden Tagungen, dass es regelmäßig Monate dauert, bis man in der Zusammenarbeit mit der Praxis einen brauchbaren Anwendungsfall für die Entwicklung intelligenter Werkzeuge – von datenbasierten Entscheidungsunterstützern bis zu modellbasierten digitalen Lernwerkzeugen – identifiziert hat.

Die Probleme der sogenannten «Datafication» treten auf verschiedenen Ebenen auf, sie haben je nach Projekttyp eine andere besondere Herausforderung und treten in verschiedenen Projektabschnitten auf. Hat man das Problem einer Phase bewältigt, lauert in der nächsten Phase ein weiteres Problem und schwingt einen noch dickeren Knüppel.

Probleme auf unterschiedlichen Ebenen

Eine umfassende Kartografierung der Schwierigkeiten, differenziert nach Ebenen des Lösungsdesigns, steht noch aus. Deshalb werden hier grundsätzliche Probleme dargestellt, die in verschiedenen Projektphasen auftreten können:

Daten sind in der Praxis weniger zentral, als die Evangelisten-Folklore behauptet: Das Konzept der Bounded Contexts mit jeweils zugehöriger Ubiquituous Language hat sich im Verbund mit Microservice-Architekturen als mächtige Waffe zur Zähmung des Komplexitätsdämons erwiesen. Seine Wirksamkeit besteht auch darin, dass es sich von einer applikationsweit gültigen Ontologie verabschiedet, vom unternehmensweit gültigen Datenmodell ganz zu schweigen, und dass es den Fokus auf das inhaltliche Domänenverständnis legt. Daten folgen hier den Funktionen – anders als in der klassischen Enterprise Application Integration (EAI), die als Erstes die Daten bereinigt und – anders als im «Good E-Government» – das zuerst konsolidierte Datenregister baut.
Der Datenwissenschaft sind engere Grenzen gesetzt, als viele meinen: Die Anwendung datenwissenschaftlicher Methoden kann zwar die Datenqualität wesentlich verbessern – und tatsächlich ist das ihr hauptsächlicher Anwendungsbereich –, aber sie funktioniert nur selten ohne inhaltliches Domänenverständnis. Insbesondere kann sie nicht die Summe der Unterschiede der Datenmodelle, wie sie in der Praxis typischerweise anzutreffen ist, auf die Schnelle bewältigen. In der Grundlagenforschung ist demgegenüber die Ausgangslage eine andere: Hier arbeitet man mit Daten, die für die Nutzung gesammelt oder sogar extra dafür gemessen werden.
Die Nutzung impliziter Informationen ist schwierig: Eine Definition von Big Data lautet, dass es verborgene Informationen explizit macht. Das impliziert, dass der Nutzungskontext verändert wird. Das wiederum schafft neben der Notwendigkeit der direkten oder indirekten Übersetzung Konflikte mit dem Datenschutz und inhaltliche Verständnisprobleme. Diese können meist nicht ausschließlich mit Algorithmen gelöst werden.
Datenverarbeitungsalgorithmen sind oft richtig, aber nicht passend: Es genügt nicht, korrekte Algorithmen und genügend passende Daten zu nutzen, obwohl an Letzterem bereits viele Vorhaben scheitern. Darüber hinaus müssen die Algorithmen auch stabil und fair sein. Menschliche Lösungen für Fairness – typischerweise das Weglassen von Daten, die Diskriminierung provozieren könnten – funktionieren bei Maschinen nicht. Das Stabilitätsproblem ist beim Maschinenlernen viel weniger gut verstanden als beispielsweise beim Differenzieren von Funktionen in der Numerik. Daneben gibt es verschiedene Dysfunktionalitäten, die man dauerhaft unter Kontrolle halten muss.
Datenverarbeitungsalgorithmen sind nur ein kleiner Teil der Lösung: Man kann oft erleben, wie sich selbst Forscher von ihren Messergebnissen hereinlegen lassen. Bei Führungskräften ist dies anreizbedingt noch häufiger. Bei konventioneller Datennutzung hilft Mitdenken. In der modernen Datenwissenschaft ist dies meist nicht mehr möglich. Die einzelnen Komponenten der Lösung müssten für sich und im Zusammenspiel kontrolliert werden. Neben Algorithmen sind dies Bewertungsheuristiken, die Programmierung der Algorithmen, das Design der Mensch- Maschine-Schnittstelle, die Einbettung in die Entscheidungsprozesse und die Programmierung der Applikationslandschaft im Ganzen.
Das Erkennen von Anwendungsfällen kommt nicht von selbst: Unternehmen haben selten Mitarbeitende, die darauf trainiert sind, mögliche Anwendungen von Big Data und Maschinenlernen zu erkennen. Eine technische Schulung ist notwendig, aber selten hinreichend. Man muss nämlich in aller Regel den Anwendungskontext und die datenwissenschaftlichen Optionen verstehen, um Anwendungsmöglichkeiten zu sehen. Zwar hilft irgendwann die Erfahrung beim Erkennen von Möglichkeiten, doch die ist beim ersten, zweiten oder dritten Projekt noch nicht vorhanden. Deshalb braucht es ein längeres konzeptionelles Experimentieren, bevor in der Praxis die konkreten Möglichkeiten erkannt werden.
Das Validieren von nicht trivialen Anwendungsfällen ist aufwendig: Das Finden von vorstellbaren Use Cases für Big Data oder Maschinenlernen führt zur Frage: Ist dieser Use Case tatsächlich hier und jetzt bei uns umsetzbar? Haben wir die passenden Daten? Und vor allem: Ist die Qualität der Anwendungen gut genug für den Nutzungskontext? Es gibt beispielsweise zahllose Laborexperimente zur medizinischen Diagnostik, aber die Qualität variiert sehr stark. Manche Entscheidungsprobleme sind viel besser geeignet für automatisches Entscheiden mit Maschinenintelligenz als andere. In der Praxis hat man es daher oft entweder mit enttäuschend banalen Anwendungen zu tun oder muss aufwendig forschen, um die Machbarkeit abzuklären.
Datenschutz ist eine grosse Herausforderung: Zwar verhindert der Datenschutz selten Projekte, er verlangt aber rechtliches Know-how und aufwendige Massnahmen. Für international tätige Unternehmen stellt sich dabei die Herausforderung, dass die Gesetze für die Forschung in Europa national formuliert werden und es deshalb sehr wohl einen grossen Unterschied machen kann, wo in Europa jeweils geforscht wird.
Die Umsetzung stößt auf viel Widerstand: Das Beispiel der personalisierten Präzisionsmedizin zeigt, dass einerseits Menschen oft lieber eine schlechtere medizinische Versorgung in Kauf nehmen, als Daten für die Forschung bereitzustellen, und andererseits Fachpersonen häufig die Nutzung datenwissenschaftlicher Anwendungen als Bedrohung für ihre berufliche Existenz wahrnehmen. In zahlreichen Bereichen konnte man schon bei konventioneller Datennutzung, beispielsweise im Umgang mit CRM-Systemen, große Widerstände dagegen beobachten. Auch ein funktionierendes und benutzerfreundliches intelligentes Werkzeug wird nicht automatisch akzeptiert.

Quick Wins …

Schnelle Erfolge resultieren typischerweise aus einer offenen Suche. Für datenwissenschaftliche Expertinnen und Experten sind die Resultate oft frustrierend, weil total einfach zu erzielen. Doch für das Unternehmen führen sie ohne großen Aufwand zu brauchbaren Ergebnissen. Dennoch sollte man gerade bei den ersten Projekten mit einer Umsetzungsdauer von acht bis zwölf Monaten rechnen, auch wenn die Summe der Einzelschritte kürzer scheint. Denn Big Data und Maschinenlernen sind grundsätzlich anders als konventionelle Datennutzungen, beispielsweise für ein zusätzliches Reporting.

… substanzielle Erfolge und Big Wins

Substanzielle Erfolge gelingen typischerweise auf der Basis einer klaren Ausgangshypothese. Sie beinhalten fast immer ein organisationsinternes Forschungsprojekt, um die Machbarkeit zu klären – und das heißt, dass diese Forschungskompetenz vorhanden sein muss, entweder in der Organisation oder bei den Projektpartnern. Eine große Herausforderung stellt meist das Einführungsmanagement dar, wobei es auch digitale Werkzeuge gibt, die bei den zukünftigen Nutzern spontane Begeisterung auslösen – und zwar solche mit großartiger User Experience.

Beides, Quick Wins und substanzielle Erfolge bei Datafication-Projekten, basiert in aller Regel auf Automatisierung, Teilautomatisierung oder Unterstützung von Aufgaben – häufig beim Treffen von Entscheidungen. Die ganz großen Erfolge, die Big Wins, sind etwas völlig anderes. Sie basieren primär darauf, dass man neue Tätigkeiten überhaupt erst ermöglicht. Die Technologie tritt dabei als Enabler für neues Tun auf und ermöglicht neue Dienstleistungen. Das setzt voraus, dass eine abstrakte digitale Transformationskompetenz mit fachdisziplinärem visionärem Denken zusammenkommt.