Data-Science-Projekte: So scheitert Datenwissenschaft

Auch Data-Science-Projekte scheitern. Allerdings nur selten an mangelndem Interesse seitens IT-Entscheidern und Geschäftsführern. [...]

Wenn Data-Science-Projekte unrund laufen, kostet das Ressourcen. Lesen Sie, wie es dazu kommen kann (c) pixabay.com

Data Science ist die derzeit angesagteste Methode, um Business-Probleme zu lösen. Schwachstellenbehaftete Projekte können Unternehmen jedoch beträchtlichen Schaden zufügen.

Tatsächlich können Data-Science-Initiativen, die wissenschaftliche Methoden, Prozesse, Algorithmen und Technologiesysteme nutzen, um Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen, auf vielfältige Art und Weise scheitern. Das führt schließlich zu Geld-, Zeit- und sonstiger Ressourcenverschwendung. Lesen Sie, warum Data-Science-Projekte im Fail enden.

1. Miese Datenqualität

Schlechte Daten sorgen für schlechte Data Science. Es ist deshalb entscheidend, ausreichend Zeit zu investieren, um sicherzustellen, dass die Daten von hoher Qualität sind. Das gilt für jedes analytische Vorhaben – so auch, wenn es um Datenwissenschaft geht.

„Schlechte oder verunreinigte Daten machen Data-Science-Initiativen unmöglich“, weiß Neal Riley, CIO beim Beratungsunternehmen Adaptavist: „Sie müssen sicherstellen, dass Ihre Daten für Analysen geeignet sind. Sind sie das nicht, ist es reine Zeitverschwendung.“ Kämen schlechte Daten für Data-Science-Projekte zum Einsatz, führe das zu Modellen, „die seltsame Ergebnisse liefern und an der Realität vorbeigehen“, so Riley.

Die Datenqualität kann auch aufgrund von Verzerrungen oder Diskrepanzen in den Datasets leiden. „Bei einigen Unternehmen gibt es mehrere Systeme, die für den Betrieb des Unternehmens genutzt werden“, weiß Brandon Jones, CIO beim Versicherer WAEPA. „Bei alteingesessenen Unternehmen gibt es vielleicht sogar Altsysteme, auf die immer noch aus Referenz- oder Validierungsgründen zugegriffen wird. In vielen Fällen hat sich das Geschäft mit jedem System verändert, was zu unterschiedlichen Prozessen und Zählungsarten von Metriken innerhalb des Unternehmens führt.“

Dies könne eine der Hauptursachen für das Scheitern von Data Science sein, meint der CIO. Die Ergebnisse könnten aufgrund von Doppelzählungen, die auf einem modifizierten Geschäftsprozess basieren, aufgebläht werden. „Um dieses Problem zu lösen, müssen Unternehmen ihr Data-Analytics-Programm auf ein bestimmtes Niveau bringen. Das bedeutet, dass ein bestimmtes Datum festgelegt werden muss, an dem die Daten validiert werden und alle Beteiligten sich dem gemeinsamen Standard verpflichten.“

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

2. Problemdefinition nicht existent

Wie kann eine Data-Science-Initiative erfolgreich sein, wenn das Team das Problem, das es lösen soll, nicht versteht? Trotzdem werden Data-Science-Teams in Projekten damit konfrontiert: „Die Definition eines Problems wird oft den Datenwissenschaftlern überlassen, obwohl diese eigentlich Business Cases umfasst, die sowohl den Umfang der Arbeit als auch den potenziellen Return on Investment definieren“, erklärt Michael Roytman, Chief Data Scientist beim Cybersicherheitsunternehmen Kenna Security.

Business-Anwender, die Data Science nutzen wollen, müssten bohrende Fragen zum Problem stellen, das sie zu lösen versuchen, meint Marc Johnson, Senior Advisor bei der Beratungsfirma Impact Advisors: „Wie bei jedem Projekt sollten Sie sich die Zeit nehmen, den Umfang des Problems einzugrenzen, um die richtigen Quellen für die Daten zu identifizieren.“ Der Berater berichtet von einem Projekt, das sich zwei Jahre lang ohne eine klare Richtung hinzog, „weil das Problem, das wir zu lösen versuchten, unscharf definiert war“.

3. Relevante Daten Mangelware

Ein weiterer Weg zum Data-Science-Fail führt darüber, nicht die richtigen Daten bereitzustellen, die zur Lösung eines bestimmten Problems benötigt werden. Es hilft dabei nicht, eine enorme Datenmenge auf ein Problem zu werfen.

„Vielerorts besteht die Annahme, dass große Datenmengen zu Erkenntnissen führen, was eigentlich selten der Fall ist“, sagt Roytman. „Intelligente, maßgeschneiderte und oft kleinere Datensätze sind es viel eher, die robuste und wiederverwendbare Modelle liefern.“

Um einen Nutzen aus Data Science zu ziehen, sollten Daten idealerweise nur aus relevanten Quellen stammen, empfiehlt Johnson. Müssten Daten aus verschiedenen Quellen gesammelt oder zugekauft werden, sollten die Teams sicherstellen, dass Änderungen an den Daten die Ergebnisse nicht verfälschen und die Qualität des gesamten Datensatzes beeinträchtigen. Dabei müssten sie auch sicherstellen, dass es keine datenschutzrechtlichen, rechtlichen oder ethischen Probleme mit dem Datensatz gibt.

4. Unzureichende Datentransparenz

Die Teams müssen die Daten, die sie zur Erstellung eines bestimmten Modells verwendet haben, transparent darstellen. „Data-Science-Projekte scheitern, wenn das Modell nicht vertrauenswürdig oder die Lösung unverständlich ist“, meint Jack McCarthy, CIO der Justiz des US-Bundesstaates New Jersey: „Um das zu verhindern, müssen Sie in der Lage sein, den Stakeholdern, die möglicherweise nicht über die technischen oder statistischen Kenntnisse verfügen, ein Bild davon zu vermitteln.“

Datenwissenschaftler müssten erklären, woher die Daten stammen, was sie zur Berechnung von Modellen beigetragen haben und auch Zugang zu allen relevanten Daten gewähren: „Transparenz kann der Schlüssel zu einem erfolgreichen Projekt sein“, so der CIO.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

5. Unsicherheiten inakzeptabel

Manchmal ist der Fachbereich, der Insights fordert, oder auch das Data-Science-Team selbst, einfach nicht bereit, Ergebnisse als unsicher, unklar oder nicht aussagekräftig genug für eine Business-Anwendung zu betrachten. „Es ist eine ebenso akzeptable und wertvolle Antwort, zu sagen: ‚Das Modell ist nicht gut genug, um einen ROI für das Unternehmen zu generieren'“, sagt Roytman.

Das Data-Science-Team bei Kenna Security verbrachte zwei Monate damit, ein Modell zur Klassifizierung von Schwachstellen zu entwickeln, erzählt Roytman. „Das Modell funktionierte und war eine solide Antwort auf ein Problem. Aber es funktionierte nicht gut genug, um für unsere Kunden wertvoll zu sein. Die Genauigkeit ließ zu wünschen übrig. Also haben wir das Projekt eingestellt, obwohl wir Zeit investiert und ein Ergebnis erzielt hatten.“

6. Kein Executive Champion

Data-Science-Bemühungen brauchen einen Champion in der C-Suite, damit die Projekte ausreichend Ressourcen und Unterstützung erhalten.

„Es hilft, wenn es der CIO ist“, sagt Riley. „Selbst wenn CIOs nicht die internen Champions für Data Science sind, sollten sie für die Sicherheit aller beteiligten Daten verantwortlich sein. Aber das Engagement sollte weitergehen: Die Aufgabe eines modernen CIOs würde ich darin sehen, das Beste aus den erfassten Informationen herauszuholen. All diese Daten lassen sich intelligent nutzen, um zu lernen. So können CIOs ihre Organisationen funktionsübergreifend unterstützen.“

7. Mitarbeitermangel

Ein Skill Gap plagt viele Aspekte der IT, dabei macht Data Science keine Ausnahme. Viele Unternehmen verfügen nicht über die entsprechenden Fachkräfte, um Projekte im Bereich der Datenwissenschaft aufrechtzuerhalten oder den maximalen Nutzen aus ihnen zu ziehen. „Echte Datenwissenschaftler sind sehr gefragt, schwer zu bekommen und teuer“, weiß Tracy Huitika, CIO of Engineering and Data beim Automatisierungsanbieter Beanworks. „Die Position erfordert normalerweise einen Doktortitel in Physik oder Naturwissenschaften sowie die Fähigkeit, Code in R und Python zu schreiben.“

Einer der Hauptgründe für das Scheitern von Data-Science-Projekten sei der Mangel an operativem Talent, so Johnson. „Einen brillanten Datenwissenschaftler zu nutzen, um das Modell zu erstellen, ohne dabei einen Plan für den Betrieb der kontinuierlichen Verbesserung mit Anpassungen an Markt- und Datenveränderungen zu haben, ist, als würde man ein Auto konstruieren und die Schlüssel einem Zehnjährigen geben.“

Unternehmen müssten sich die richtigen Fähigkeiten aneignen, um das Modell zu pflegen, nachdem es in Produktion gegangen ist, entweder durch die Einstellung von Fachkräften oder indem sie externe Experten heranziehen, meint der Berater.

8. Data Science ist nicht die Lösung

Es sollte wohlüberlegt sein, ob und wenn ja welche Data-Science-Methoden, -Prozesse und -Tools eingesetzt werden, um sicherzustellen, dass die Lösung zum Problem passt. „Vielleicht brauchen Sie gar kein Machine-Learning-, sondern nur ein einfaches Regressionsmodell,“ merkt Riley an.

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.

*Bob Violino arbeitet als freier IT-Journalist für InfoWorld und Network World in den USA.