Maschinelles Lernen mag äußerst nützlich sein, kann aber auch schnell schiefgehen. Diese 5 Unternehmen sprechen über die Fehler, die sie begangen haben, damit Sie daraus lernen können. [...]
Maschinelles Lernen gehört zu den wohl heißesten Technologiekategorien zurzeit – Führungskräfte aus allen Bereichen der Wirtschaft und Technik suchen Wege, um an der Entwicklung dieses Phänomens teilhaben zu können. Richtig umgesetzt, kann maschinelles Lernen dazu beitragen, effektivere Vertriebs- und Marketingkampagnen zu erstellen, Finanzmodelle zu verbessern, Betrug leichter zu erkennen oder die vorrausschauende Wartung von Geräten zu optimieren; um nur ein paar Beispiele zu nennen.
Doch er Umgang mit maschinellem Lernen kann auch furchtbar schiefgehen und dann bereut so manches Unternehmen ihren übereilten Versuch, diese Technologie schnellstmöglich in den Firmenablauf integrieren zu wollen. Hier sind fünf Möglichkeiten, wie maschinelles Lernen schief gehen kann, basierend auf den tatsächlichen Erfahrungen realer Unternehmen, die daran gescheitert sind. Sie haben ihre Lektion gelernt und teilen nun ihre Fehler, damit Sie sie vermeiden können.
Lektion 1: Falsche Annahmen werfen maschinelles Lernen aus der Bahn
Project PSA ist ein US-amerikanisches Unternehmen, das Automatisierungssoftware für Professional Services entwickelt, auf denen Consulting-Unternehmen ihre Geschäfte aufbauen können. Die Firma lernte seine Lektion auf die härteste Art und Weise, als sie versuchte, Machine Learning dazu zu verwenden, Abweichungen in Personalplänen vorherzusagen.
Da Beratungsunternehmen auf spezialisierte und gut ausgebildete Berater angewiesen sind und ihre Talente effizient eingesetzt werden, beschäftigen solche Unternehmen häufig Projektmanager, die den Personalbedarf für ihre jeweiligen Projekte bewerten und vorhersagen.
Dann verfolgen sie die Zeit, die die Berater für jedes einzelne Projekt aufgewendet haben, um ihren Kunden diese später in Rechnung zu stellen. Wenn das Unternehmen beide Aktivitäten in einem einzigen System verwaltet, z. B. in einem professionellen Service-Automatisierungstool, hat das einige entscheidende Vorteile wie beispielsweise die Möglichkeit, die prognostizierten Stunden mit den tatsächlichen Stunden zu vergleichen, um zu sehen, wie gut die verschiedenen Projektmanager in der Genauigkeit ihrer Planung waren.
Project PSA hatte mit einem seiner Kunden, der Hunderte von Projektmanagern beschäftigte, eine Studie gestartet, erinnert sich COO Steve Chong. In dieser Zeit wurden Modelle erstellt, die die Unterschiede zwischen den durchschnittlich tatsächlich geleisteten Arbeitsstunden und den prognostizierten Stunden bei ständig wachsenden Planungshorizonten (Varianz) vergleichen sollten. Das Unternehmen untersuchte außerdem über mehrere Monate hinweg, wie konsistent die Projektionen der Projektmanager waren (Variabilität).
Wenn in einer Woche die Prognose viel zu hoch und in der nächsten Woche viel zu niedrig war (hohe Variabilität), untersuchte Project PSA also vor allem, ob sich diese gegenseitig so aufhoben, so dass es im Durchschnitt nur eine geringen Unterschied, oder eine niedrige Varianz, ausmachte.
„Die Grundvoraussetzung hier war, dass niedrige Varianz und geringe Variabilität gut, hohe Varianz und hohe Variabilität dagegen jedoch schlecht sind“, so Chong. Basierend auf dieser Prämisse lehrte Project PSA einen Machine Learning-Algorithmus, um seine Projektmanager auf der Grundlage dieser Daten in verschiedene Gruppen einzuordnen – z. B. „Horter“ oder „Optimisten“ – wobei eine Stichprobe aller Projektmanager des Unternehmens als Trainingsset verwendet wurde.
Anschließend ließ das Unternehmen den Algorithmus für maschinelles Lernen die verbleibenden Projektmanager basierend auf dem Gelernten klassifizieren. Doch es stellt sich heraus, dass einige der erfahrensten und bestens ausgebildeten Projektmanager des Unternehmens durch den Algorithmus als die schlimmsten Täter eingestuft wurden, weil sie zugleich eine hohe Varianz und eine hohe Variabilität aufwiesen.
„In Wahrheit waren es eben diese Projektmanager, die das Unternehmen vor allem Projekten zuwies, die sich bereits in Schwierigkeiten befanden, in der Erwartung, dass sie diese Projekte mit ihrem Können in den Griff bekommen könnten.“, erklärte Chong.
In ähnlicher Weise bewertete der erste Algorithmus für maschinelles Lernen eine Projektmanagerin zu hoch, die nahezu null Varianz und null Variabilität aufwies. Später stellte sich heraus, dass sie die prognostizierten Stunden an ihr Team schickte, mit der implizierten Erwartung, dass sie auch genau diese Anzahl an Stunden als das melden würden, was sie tatsächlich gearbeitet hatten. Dies führte dazu, dass sie nie über oder unter ihr Budget geriet, aber durch ihre Anweisungen das Team effektiv dazu ermutigte, auf eine Art und Weise zu handeln, die für das Gesamtbild der Untersuchung schädlich war, meinte Chong.
„Diese Fehler wurden nicht durch die Algorithmen für maschinelles Lernen selbst verursacht, sondern durch die Annahmen, die wir zu Beginn trainiert haben“, so Chong. „Sie sind auch darauf zurückzuführen, dass sie sich ursprünglich ausschließlich auf die reinen Daten stützten, ohne vorher ein ausreichendes Verständnis für die Realität dieser Daten erlangt zu haben.“
Nachdem das Unternehmen seinen Algorithmus für maschinelles Lernen darauf trainiert hatte, diese neuen Profile zu identifizieren, hatte es das Gefühl, dass es die Realität viel besser widerspiegeln konnte.
Lektion 2: Unbeaufsichtigtes maschinelles Lernen kann unerwartete Abweichungen aufweisen
Obwohl viele Aufgaben durch maschinelles Lernen übernommen werden können, gibt es einige Umstände, die zu Beginn eines Projekts nicht berücksichtigt werden und die die Ergebnisse des maschinellen Lernens beeinträchtigen können. So geschah es mit Mejor Trato, einem Finanzdienstleistungsunternehmen in Brasilien, das maschinelles Lernen als Teil einer digitalen Transformation in seiner Personalabteilung einsetzte.
Das Projekt beinhaltete, dass potenzielle neue Mitarbeiter eine Reihe von Fragen durch Live-Chat und Anrufe mit Hilfe von Machine Learning-Chatbots beantworten sollten, die das Unternehmen intern zu diesem Zweck entwickelt hatte.
Bei der erstmaligen Verwendung dieser Chatbots sind jedoch zwei grundlegende Dinge schief gelaufen. Zum einen wurden die Bewerber dazu aufgefordert, die falschen Formulare für ihr Profil bzw. ihren Beruf auszufüllen. Zum anderen wurden Tage und Stunden für die Interviews angegeben, die sich mit den Meetings der Personalmitarbeiter überschnitten, was bedeutete, dass diese die Chatbots während des Interviews nicht nach Bedarf überwachen konnten.
Vor allem in den ersten Wochen war es wichtig, dass einige Mitarbeiter des HR-Teams jedes Gespräch überwachten, um die Bots bei Bedarf zu korrigieren, meint CTO Cristian Rennella. „Wir haben den Fehler gemacht, zu glauben, dass alle potenziellen Probleme gelöst wurden und haben den Chatbot daher [ohne Aufsicht] gelassen“, sagt sie. Die Lektion lautete: „Vergessen Sie nicht, ihren Chatbots wenigstens für einige Monate zu überwachen.“
Das Unternehmen stellte fest, dass rund 10 Prozent der erfassten Daten fehlerhaft waren, weil ihre Chatbots im Vorfeld nicht optimiert worden waren.
„Maschinelles Lernen wird am Anfang vielleicht für 90 Prozent aller Antworten nützlich sein, doch die restlichen 10 Prozent sollten unter menschlicher Aufsicht bleiben, damit der Algorithmus in solchen Fällen korrigiert werden kann“, so Rennella. Im Laufe der Zeit werden diese 90 Prozent auf bis zu 99 Prozent ansteigen. „Trotzdem dürfen wir nicht aufhören, Abweichungen und neue Situationen im Auge zu behalten, die entstehen könnten und die wir nicht erwartet hatten, als wir das Projekt starteten“, meint sie.
Lektion 3: Schlechte Datenkennzeichnung beeinträchtigt die Ergebnisse maschinellen Lernens
Die beiden in Russland ansässigen Unternehmen Ashmanov Neural Networks und SOVA (Smart Open Virtual Assistant) haben sich darauf spezialisiert, maschinelles Lernen für ihre Geschäftskunden zu entwickeln. Dazu gehören Videoanalyse, Verarbeitung natürlicher Sprache, Signalverarbeitung und neuronale Netzwerke.
Eines der größten Probleme beider Unternehmen im Bereich des maschinellen Lernens sind schlechte Daten aufgrund von Schwierigkeiten bei der Kennzeichnung, erklärt Stanislav Ashmanov, CEO der beiden Unternehmen. „Es ist virtuell unmöglich, eine hochwertige Datenkennzeichnung bereitzustellen“, sagt Ashmanov. „Normalerweise sind Leute, die am Data Labeling arbeiten, schlampig, weil sie oft in Stress und Eile arbeiten. Darüber hinaus ist es unglaublich schwierig, die Aufgaben so weiterzugeben, dass sie von jedem auf dieselbe Weise verstanden werden.“
Infolgedessen enthalten diese Daten mehrere markierte Proben, z. B. falsch identifizierte Silhouetten in einem Bild, die die Qualität der Performance des trainierten neuronalen Netzwerks negativ beeinflussen.
Es ist auch eine Herausforderung, die großen Datenmengen zu sammeln, die in kurzer Zeit benötigt werden. Die Datenerhebung könnte bis zu einigen Monaten dauern, sagt Ashmanov. Und die Daten, die aus öffentlich zugänglichen Quellen erhoben werden, z. B. aus dem Internet, entsprechen nicht immer der Realität. Beispielsweise können Bilder, die in einem Studio oder in einem Labor aufgenommen wurden, drastisch von den tatsächlichen Straßenansichten oder Schnappschüssen der Fabrikproduktionseinheiten abweichen. Folglich ist die Leistung des neuronalen Netzwerks gering.
Ein Beispiel dafür, was in so einem Fall schief gehen könnte, geschah, als die Unternehmen ein solches neuronales Netzwerk darauf trainierten, Brillen in Selfies zu identifizieren, die als Teil eines Kunden-Projekts online gestellt wurden. Sie sammelten eine Auswahl von Fotos aus den sozialen Medien und beschrifteten sie. Das neuronale Netzwerk erwies sich dabei von geringer Qualität, so Ashmanov, weil es unter anderem Menschen mit dunklen Augenringen als Brillenträger fehlinterpretierte.
Ein anderer Kunde reichte zwei Satellitenbilder einer Stadt ein. Die Aufgabe des Unternehmens bestand darin, die Autos darin zu markieren und dem neuronalen Netzwerk beizubringen, sie zu erkennen und ihre ungefähre Anzahl zu ermitteln. Das Problem bestand in diesem Fall darin, dass das neuronale Netz Leisten auf den Dächern eines Gebäudes als Autos missinterpretierte, weil sich beides im Aussehen ähnelte – klein, rechteckig und meist dunkel schattiert.
„Es kommt einfach darauf an, in Marginalfällen, bei der Erstellung von Heuristiken und der Verbesserung der vorläufigen Datenverarbeitung sorgfältig zu arbeiten, sowie auf die Nachprüfung der Nachprüfung zu achten“, sagt Ashmanov.
Lektion 4: Nuancierte Klassifizierungsprobleme können maschinelles Lernen durcheinanderbringen
Casepoint, ein US-amerikanischer Anbieter von E-Discovery-Technologie für den Rechtssektor und andere Märkte, hat die Unzulänglichkeiten des maschinellen Lernens ebenfalls am eigenen Leib erlebt. Das Unternehmen nutzt maschinelles Lernen zur Klassifizierung von Dokumenten und für Predictive Analytics. Durch die Verwendung dieser Technologie können Juristenteams die Arbeitszeit für das Überprüfen und Kategorisieren von Dokumenten drastisch reduzieren.
Die Verwendung von maschinellem Lernen zum Klassifizieren von Dokumenten ist effektiv, aber nicht fehlerfrei, sagt David Carns, Chief Strategy Officer des Unternehmens. Eine Schwachstelle, die das Unternehmen erkannt hat, ist das übermäßige Vertrauen auf maschinelles Lernen, um subtilere, differenziertere Klassifizierungsprobleme zu lösen.
So wird beispielsweise im Rechtsbereich maschinelles häufig dazu verwendet, Dokumente zu identifizieren, die auf eine „Anforderung zur Erstellung von Dokumenten“ reagieren. Partei A fordert Dokumente an, die sich auf bestimmte Themen oder Inhalte beziehen, und Partei B kann Klassifizierer für maschinelles Lernen verwenden, um Hilfe beim Durchsuchen von Dokumentablagen für responsive Dokumente zu erhalten.
Das Ganze funktioniert so gut, dass Anwälte damit begonnen haben, diese technologiegestützte Überprüfung von Dokumenten routinemäßig zu nutzen, meint Carns. „Dieser Erfolg führt dazu, dass man maschinell lernende Dokumentenklassifizierer für subtilere und differenziertere Klassifizierungen verwenden möchte, beispielsweise Dokumente, die durch das Anwalt-Mandanten-Privileg geschützt werden“, sagt er.
Obwohl das Nutzen von maschinellem Lernen leicht ist, um einen Dokumentenklassifizierer über den Inhalt von Berechtigungsdokumenten zu trainieren, hängt die Frage, was ein Dokument rechtlich privilegiert, stark von der Zielgruppe eines Dokuments, der Vertraulichkeit, dem Zeitpunkt des Eingangs und dem Bezug zu Rechtsberatung oder Rechtsstreitigkeiten ab. Die meisten Klassifizierungsdokumente für maschinelles Lernen können diese zusätzlichen Kontexthinweise nicht ausreichend klassifizieren, so Carns.
„Dies bedeutet nicht, dass Dokument-Klassifizierer für maschinelles Lernen nicht dabei helfen können, potenziell privilegierte Dokumente auszuwählen und zu kategorisieren“, erklärt Carns. „Juristen sollten sich jedoch nicht nur auf maschinelles Lernen verlassen, um Privilegien zu bestimmen.“ Heute müssen Anwälte potenziell privilegierte Dokumente manuell prüfen, um eine endgültige Entscheidung darüber zu fällen, welche Rechtsprivilegien gelten.
Lektion 5: Test/Train-Kontamination kann maschinelles Lernen behindern
Das US-amerikanische Automatisierungsunternehmen Indico bietet seinen Kunden seit Jahren künstliche Intelligenz- und Deep-Learning-Services für Unternehmen an, und eines der größten Probleme, denen es dabei weiterhin begegnet, ist die Belastung von Test- und Trainingsdaten für maschinelles Lernen.
Ein Kunde entwickelte beispielsweise ein Modell, um herauszufinden, ob eine Nachricht den Aktienkurs beeinflussen würde, meint CTO Slater Victoroff. Damit war es jedoch schwer zu bestimmen, wie sich diese Nachricht letztlich auswirken würde, und so entwickelte das Unternehmen ein weiteres Modell, um stets die Auswirkungen des nächsten Tages vorhersagen zu können.
„Was sie nicht erkannten, war, dass sie die datenwissenschaftlichen Grundlagen für einen sauberen Test/Train-Split vernachlässigt hatten“, sagt Victoroff. „Sie zeigten daher eine Genauigkeit von fast 100 Prozent bei der Vorhersage der Auswirkungen am nächsten Tag, obwohl das Modell in der Realität nicht besser war als der Zufall.“
Eine andere Erfahrung des Unternehmens ergab sich, als ein Kunde sein internes Natural Language Processing (NLP) -System untersuchte. Der Kunde hatte ein Team, das seit Jahren Features für Machine-Learning-Modelle erstellt und aktualisiert hatte und diese basierend auf denselben Suchvorgängen kontinuierlich testete. Auch dieses Team erlebte die Auswirkungen der Test-/Train-Kontamination. „Jedes Mal, wenn sie Ihren Testfehler betrachten und Ihre Algorithmen änderten, um Ihren Testfehler zu verbessern, waren ihre Zahlen nicht mehr genau“, sagt Victoroff.
In diesem speziellen Fall war das Problem nur unzureichend bekannt. Intern erreichte das Modell eine Genauigkeit von nahezu 100 Prozent für eine bestimmte Aufgabe. „In der Produktion war das System jedoch nicht funktionsfähig, weil sie ihre Ergebnisse ungewollt verseucht hatten“, erklärt Victoroff. „Der kritischste Fehler, den ein Unternehmen beim maschinellen Lernen machen kann, ist das Problem der Test-/Train-Kontamination.“
*Bob Violino schreibt als Autor für Computerworld, CIO, CSO, InfoWorld und Network World in New York.
Be the first to comment