Rassistische Algorithmen: 5 bekannte Analytik- und KI-Katastrophen

Erkenntnisse aus Daten und Algorithmen des maschinellen Lernens können von unschätzbarem Wert sein, aber Fehler können Sie Ruf, Einnahmen oder sogar Leben kosten. Diese bekannten Analyse- und KI-Fehler veranschaulichen, was alles schief gehen kann. [...]

pexels-rfstudio-4177882 — Es ist wichtig, Ihre Daten zu verstehen, aber es ist auch wichtig, Ihre Tools zu verstehen, Ihre Daten zu kennen und die Werte Ihres Unternehmens fest im Blick zu behalten (c) pexels.com

Im Jahr 2017 erklärte The Economist, dass nicht Öl, sondern Daten zur wertvollsten Ressource der Welt geworden seien. Dieser Refrain wiederholt sich seitdem immer wieder. Unternehmen aller Branchen haben in hohem Maße in Daten und Analysen investiert und tun dies auch weiterhin. Aber wie Öl haben auch Daten und Analysen ihre Schattenseiten.

Laut dem IDG-Bericht „State of the CIO 2020“ geben 37 Prozent der IT-Führungskräfte an, dass die Datenanalyse in diesem Jahr die meisten IT-Investitionen in ihrem Unternehmen vorantreiben wird. Erkenntnisse aus Analysen und Maßnahmen, die durch Algorithmen des maschinellen Lernens gesteuert werden, können Unternehmen einen Wettbewerbsvorteil verschaffen, aber Fehler können in Bezug auf Ruf, Einnahmen oder sogar Leben teuer zu stehen kommen.

Es ist wichtig, Ihre Daten und das, was sie Ihnen sagen, zu verstehen, aber es ist auch wichtig, Ihre Tools zu verstehen, Ihre Daten zu kennen und die Werte Ihres Unternehmens fest im Blick zu behalten.

Hier sind eine Handvoll bekannter Analytik- und KI-Fehler der letzten zehn Jahre, um zu veranschaulichen, was alles schief gehen kann.

Großbritannien verlor Tausende von COVID-Fällen durch die Überschreitung des Grenzwerts bei Excel

Im Oktober 2020 enthüllte die Public Health England (PHE), die für die Zählung der Neuinfektionen mit COVID-19 zuständige britische Regierungsstelle, dass zwischen dem 25. September und dem 2. Oktober fast 16.000 Fälle von Coronaviren nicht gemeldet wurden. Der Übeltäter? Datenbeschränkungen in Microsoft Excel.

PHE verwendet ein automatisiertes Verfahren, um COVID-19-positive Laborergebnisse als CSV-Datei in Excel-Vorlagen zu übertragen, die von Berichts-Dashboards und für die Rückverfolgung von Kontakten verwendet werden. Leider können Excel-Tabellenblätter maximal 1.048.576 Zeilen und 16.384 Spalten pro Arbeitsblatt haben. Außerdem listete die PHE die Fälle in Spalten statt in Zeilen auf. Als die Fälle die Grenze von 16.384 Spalten überschritten, schnitt Excel die restlichen 15.841 Datensätze am unteren Ende ab.

Die „Panne“ hinderte die Personen, die sich testen ließen, nicht daran, ihre Ergebnisse zu erhalten, aber sie hinderte die Bemühungen zur Kontaktverfolgung, was es für den britischen National Health Service (NHS) schwieriger machte, Personen zu identifizieren und zu benachrichtigen, die in engem Kontakt mit infizierten Patienten standen. In einer Erklärung vom 4. Oktober gab Michael Brodie, interimistischer Geschäftsführer von PHE, bekannt, dass NHS Test and Trace und PHE das Problem schnell gelöst und alle ausstehenden Fälle sofort in das NHS Test and Trace-System zur Ermittlung von Kontaktpersonen übertragen hätten.

PHE hat eine „schnelle Milderung“ eingeführt, die große Dateien aufteilt und eine vollständige End-to-End-Überprüfung aller Systeme durchgeführt hat, um ähnliche Vorfälle in der Zukunft zu verhindern.

Algorithmus im Gesundheitswesen versagte bei der Kennzeichnung schwarzer Patienten

Im Jahr 2019 ergab eine in der Science veröffentlichte Studie, dass ein Algorithmus zur Vorhersage des Gesundheitszustands, der von Krankenhäusern und Versicherungsgesellschaften in den gesamten USA verwendet wird, um Patienten zu identifizieren, die „Hochrisiko-Pflegemanagementprogramme“ benötigen, mit weitaus geringerer Wahrscheinlichkeit schwarze Patienten erkennen könnte.

Hochrisiko-Pflegemanagementprogramme bieten chronisch kranken Patienten geschultes Pflegepersonal und Überwachung der Primärversorgung, um schwerwiegende Komplikationen zu verhindern. Der Algorithmus empfahl jedoch mit sehr viel größerer Wahrscheinlichkeit weiße Patienten für diese Programme als schwarze Patienten.

Die Studie fand heraus, dass der Algorithmus die Gesundheitskosten als Proxy für die Bestimmung des Gesundheitsbedarfs einer Person verwendete. Aber laut Scientific American lagen die Gesundheitskosten kränkerer schwarzer Patienten auf dem gleichen Niveau wie die Kosten gesünderer weißer Menschen, was bedeutete, dass sie niedrigere Risikowerte erhielten, selbst wenn ihr Bedarf größer war.

Die Forscher der Studie vermuteten, dass einige verschiedene Faktoren dazu beigetragen haben könnten. Erstens haben Schwarze in den USA mit größerer Wahrscheinlichkeit ein niedrigeres Einkommen, was selbst im Versicherungsfall dazu führen kann, dass sie weniger Zugang zu medizinischer Versorgung haben. Impliziter Rassismus kann auch dazu führen, dass Menschen mit Hautfarbe eine qualitativ schlechtere Versorgung erhalten.

Während die Studie weder den Algorithmus noch den Entwickler nannte, teilten die Forscher Scientific American mit, dass sie mit dem Entwickler zusammenarbeiten, um die Situation zu klären.

Dataset trainierte Microsoft-Chatbot, rassistische Tweets zu spucken

Im März 2016 erfuhr Microsoft, dass die Verwendung von Twitter-Interaktionen als Trainingsdaten für Algorithmen des maschinellen Lernens bestürzende Ergebnisse haben kann.

Microsoft veröffentlichte Tay, einen KI-Chatbot, auf der Social-Media-Plattform. Die Firma beschrieb ihn als ein Experiment zum „Gesprächsverständnis“. Die Idee war, dass der Chatbot die Rolle eines Teenager-Mädchens annehmen und mit Einzelpersonen über Twitter mit Hilfe einer Kombination aus maschinellem Lernen und Verarbeitung natürlicher Sprache interagieren sollte. Microsoft versah ihn mit anonymisierten öffentlichen Daten und einigen von Comedians vorformulierten Materialien und gab ihm dann die Möglichkeit, aus seinen Interaktionen im sozialen Netzwerk zu lernen und sich weiterzuentwickeln.

Innerhalb von 16 Stunden postete der Chatbot mehr als 95.000 Tweets, und diese Tweets wurden schnell offenkundig rassistisch, frauenfeindlich und antisemitisch. Microsoft setzte den Dienst schnell wegen entsprechender Anpassungen aus und zog schließlich den Stecker.

„Wir bedauern zutiefst die unbeabsichtigten beleidigenden und verletzenden Tweets von Tay, die weder repräsentieren, wer wir sind oder wofür wir stehen, noch wie wir Tay gestaltet haben“, schrieb Peter Lee, Corporate Vice President, Microsoft Research & Incubations (damals Corporate Vice President von Microsoft Healthcare), in einem Beitrag in Microsofts offiziellem Blog nach dem Vorfall.

Lee merkte an, dass der Vorgänger von Tay, Xiaoice, der 2014 von Microsoft in China veröffentlicht wurde, in den zwei Jahren vor der Freilassung von Tay erfolgreich Gespräche mit mehr als 40 Millionen Menschen geführt habe. Was Microsoft nicht berücksichtigte, war, dass eine Gruppe von Twitter-Benutzern sofort damit beginnen würde, rassistische und frauenfeindliche Kommentare an Tay zu twittern. Der Bot lernte schnell aus diesem Material und integrierte es in seine eigenen Tweets.

„Obwohl wir uns auf viele Arten des Missbrauchs dieses Systems vorbereitet hatten, haben wir diesen speziellen Angriff leider kritisch übersehen. Infolgedessen twitterte Tay wahnsinnig unangemessene und verwerfliche Worte und Bilder“, schrieb Lee.

KI-aktiviertes Rekrutierungstool von Amazon empfiehlt nur Männer

Wie viele große Unternehmen ist Amazon hungrig nach Tools, die seiner HR-Funktion helfen können, Bewerbungen nach den besten Kandidaten zu durchforsten. Im Jahr 2014 begann Amazon mit der Arbeit an KI-gestützter Rekrutierungssoftware, um genau dies zu erreichen. Es gab nur ein Problem: Das System bevorzugte in hohem Maße männliche Kandidaten. Im Jahr 2018 teilte Reuters mit, dass Amazon das Projekt eingestellt hatte.

Amazons System gab den Kandidaten Sternebewertungen von 1 bis 5, aber die maschinellen Lernmodelle, die das Herzstück des Systems bildeten, wurden anhand von Lebensläufen, die Amazon in den letzten 10 Jahren vorgelegt wurden, trainiert – die meisten davon von Männern. Infolge dieser Trainingsdaten begann das System, Sätze im Lebenslauf zu bestrafen, die das Wort „Frauen“ enthielten, und stufte sogar Kandidaten von reinen Frauenhochschulen herab.

Damals gab Amazon an, dass das Tool von den Personalvermittlern bei Amazon nie zur Bewertung von Kandidaten eingesetzt wurde.

Das Unternehmen versuchte, das Tool zu überarbeiten, um es neutral zu halten, entschied aber schließlich, dass es nicht garantieren könne, dass es nicht noch eine andere diskriminierende Art und Weise des Sortierens von Kandidaten erlernen würde, und beendete das Projekt.

Target Analyse verletzte die Privatsphäre

Im Jahr 2012 zeigte ein Analyseprojekt des Einzelhandelsunternehmens Target auf, wie viel Unternehmen aus ihren Daten über Kunden lernen können. Der New York Times zufolge begann sich die Marketingabteilung von Target 2002 zu fragen, wie sie feststellen kann, ob Kunden schwanger sind. Diese Art der Untersuchung führte zu einem prädiktiven Analyseprojekt, das bekanntlich dazu führte, dass der Einzelhändler der Familie einer Teenagerin versehentlich offenbarte, dass sie schwanger war. Das wiederum führte zu allerlei Artikeln und Marketingblogs, in denen der Vorfall als Teil der Ratschläge zur Vermeidung des „Gruselfaktors“ zitiert wurde.

Die Marketingabteilung von Target wollte schwangere Personen identifizieren, weil es bestimmte Perioden im Leben – allen voran die Schwangerschaft – gibt, in denen Menschen ihre Kaufgewohnheiten am ehesten radikal ändern können. Wenn Target in dieser Zeit Kunden erreichen könnte, könnte es zum Beispiel neue Verhaltensweisen bei diesen Kunden kultivieren und sie dazu bringen, sich für Lebensmittel, Kleidung oder andere Waren an Target zu wenden.

Wie alle anderen großen Einzelhändler hatte Target Daten über seine Kunden über Shopper-Codes, Kreditkarten, Umfragen und vieles mehr gesammelt. Diese Daten wurden mit demographischen Daten und Daten von Dritten, die das Unternehmen gekauft hatte, zusammengeführt. Durch die Auswertung all dieser Daten konnte das Analyse-Team von Target feststellen, dass es etwa 25 von Target verkaufte Produkte gab, die zusammen analysiert werden konnten, um ein Ergebnis für die „Schwangerschaftsvorhersage“ zu erhalten. Die Marketingabteilung konnte dann Kunden mit hoher Punktzahl mit Gutscheinen und Marketingbotschaften ansprechen.

Zusätzliche Untersuchungen ergaben, dass die Untersuchung des Reproduktionsstatus der Kunden für einige dieser Kunden unheimlich erscheinen könnte. Der Times zufolge wich das Unternehmen nicht von seinem zielgerichteten Marketing ab, sondern begann, Anzeigen für Dinge, von denen sie wussten, dass schwangere Frauen sie nicht kaufen würden – einschließlich Anzeigen für Rasenmäher neben Anzeigen für Windeln – einzufügen, um dem Kunden das Gefühl zu geben, die Anzeigenmischung sei zufällig.

*Thor Olavsrud befasst sich für CIO.com mit Datenanalyse, Business Intelligence und Datenwissenschaft.