Warum Siri uns abhören muss

Es ist an der Zeit, sich einer harten Wahrheit bezüglich maschinellen Lernens und KI zu stellen: Damit sie besser werden, müssen Menschen mit einbezogen werden. [...]

Um die Leistung von Siri zu verbessern, setzte Apple Personen ein, die die Sprachaufnahmen von Kunden auf ihre Richtigkeit bewerteten (c) Apple

Eine Woche nachdem ein Artikel im The Guardian enthüllte, dass Menschen in Apples Siri „Grading“-Programm private und illegale Aktivitäten mit anhörten, wurde das Programm von Apple ausgesetzt, um eine Überprüfung durchzuführen. Es wird auch an einem Software-Update gearbeitet, das den Benutzern die Möglichkeit geben soll, sich abzumelden (oder sich vielleicht anzumelden).

Apple gab eine einfache Erklärung ab:? „Wir sind bestrebt, ein großartiges Siri-Erlebnis zu bieten und gleichzeitig die Privatsphäre der Benutzer zu schützen. Während wir eine gründliche Überprüfung durchführen, setzen wir die globale Einstufung von Siri aus. Darüber hinaus werden die Benutzer im Rahmen eines zukünftigen Software-Updates die Möglichkeit haben, sich für die Teilnahme an der Bewertung zu entscheiden.“

Das ist der richtige Schritt, aber ich frage mich, wie der Weg nach vorne aussehen soll. Denn obwohl die meisten Menschen es nicht wahrhaben wollen, basieren Machine Learning (ML) und KI auf einer Grundlage des menschlichen „Gradings“ und es sind immer noch keine guten Alternativen in Sicht. Und da Siri häufig kritisiert wird, weil sie ein oder zwei Jahre hinter seinen Konkurrenten zurückbleibt, wird es für Apple nicht einfach sein, aufzuholen und gleichzeitig unsere Privatsphäre zu schützen.

Jeder tut es

Worum geht es in diesem Siri-Graduierungsprogramm? Grundsätzlich wird jedes Mal, wenn Sie „Hey Siri…“ sagen, der Befehl, den Sie aussprechen, auf Ihrem Gerät verarbeitet, aber auch semi-anonymisiert und in die Cloud gesendet. Ein kleiner Prozentsatz davon wird verwendet, um das neuronale Netzwerk zu trainieren, das es Siri (und Apples Diktierfunktion) ermöglicht, genau zu verstehen, was Sie sagen. Irgendjemand, irgendwo auf der Welt, hört sich einige der „Hey Siri“-Befehle an und notiert, ob Siri die Person richtig verstanden hat oder nicht.

Dann wird das maschinelle Lern-Netzwerk durch Millionen von Permutationen angepasst und neu angepasst und neu angepasst. Die Änderungen werden automatisch mit diesen „abgestuften“ Proben getestet, bis ein neuer ML-Algorithmus genauere Ergebnisse liefert. Dann wird dieses neuronale Netzwerk zur neuen Basislinie, und der Prozess wiederholt sich.

Es gibt einfach keine Möglichkeit, ML-Algorithmen für Spracherkennung oder Bilderkennung zu trainieren oder zu bestimmen, ob Ihre Sicherheitskamera eine Person oder ein Auto gesehen hat – ohne dass ein Mensch es auf diese Weise trainiert. Wenn es einen Computeralgorithmus gäbe, der immer genau bestimmen könnte, ob die KI richtig oder falsch liegt, dann wäre es der KI-Algorithmus selbst!

Apple, Google, Amazon, Microsoft und alle anderen Hersteller von KI-Assistenten, die maschinell lernende Algorithmen verwenden, um Sprache zu erkennen oder Objekte auf Fotos oder Videos oder fast allem anderen zu erkennen, tun dies. Sie hören Ihre Assistentenanfragen ab, sie schauen sich Ihre Fotos an, sie beobachten Ihre Sicherheitskameras.

Zumindest so ungefähr.

(Tatsächlich hat Google auch gerade die Überprüfung seiner Sprachaufnahmen ausgesetzt, nachdem eine deutsche Untersuchung ergab, dass Auftragnehmer vertrauliche Informationen an die Presse weitergegeben haben. Hoppla.)

Sie können ML-Algorithmen natürlich mit einer Reihe von kommerziell gekauften und lizenzierten Fotos, Videos und Sprachproben trainieren. Und viele Unternehmen tun es, aber das wird Sie nur so weit bringen. Um Ihre KI wirklich zuverlässig zu machen, benötigt sie Fotos, Videos und Aufzeichnungen in gleicher Qualität, die auf den Geräten Ihres Unternehmens aufgenommen wurden. Es benötigt unordentliche, akzentuierte Sprache aus einer Entfernung von zwei Metern am Mikrofon Ihres Telefons mit Windgeräuschen und einem Rasenmäher im Hintergrund.

Das menschliche Training der KI ist kein seltenes Ereignis, sondern eine gängige Praxis. Die Selbstfahrkapazitäten von Tesla werden aufgebaut, indem Menschen ein neuronales Netzwerk trainieren, indem sie die Kameradaten aus den Autos ihrer Kunden betrachten und Schilder, Fahrspuren, andere Autos, Fahrräder, Fußgänger und so weiter markieren. Sie können einfach keinen hochwertigen maschinellen Lernalgorithmus trainieren, ohne dass Menschen die Daten überprüfen.

Anonym, aber nicht so ganz

Da es einfach nicht möglich ist, einen hochwertigen KI-Algorithmus zu trainieren, der von Millionen von Menschen ohne menschliche Überprüfung verwendet werden soll, versuchen die meisten Unternehmen zumindest, ihn semi-anonym zu machen. Bevor ein Mensch eine Aufzeichnung hört, wird sie von allen Daten befreit, die zur Identifizierung eines bestimmten Benutzers verwendet werden könnten. Zumindest sagen die Unternehmen uns, dass sie das tun.

Wenn die Facebook-Nutzung ein Indiz dafür ist, wären die meisten Menschen damit einverstanden, dass ihre Daten zum Trainieren von KI-Algorithmen verwendet werden (c) Apple

Aber in der Regel wird eine gewisse Menge an Daten benötigt, die über die eigentliche Sprachaufzeichnung oder Foto/Video hinausgehen, so dass sie nicht vollständig anonym sein können.

Zum Beispiel, wenn ich frage: „Hey Siri, wann schließt der UPS Store an der Greenback Lane“ und Siri glaubt, ich hätte gesagt: „Wie spät schließt der UPS Store an der Glenn Brook Lane“? Ich bekomme ein schlechtes Ergebnis. Es gibt keine Glenn Brook Lane in meiner Nähe und sicherlich auch keinen UPS Store dort. Aber es gibt keine Möglichkeit für ein automatisiertes System zu wissen, dass seine Transkription falsch war, denn das ist zweifellos etwas, das eine Person sagen könnte.

Ein Mensch muss diese Dinge also überprüfen, und er muss ungefähr wissen, wo ich war, als ich die Frage stellte. Diese menschlichen „Grader“ können nicht wissen, dass die Glenn Brook Lane ohne genügend Standortdaten falsch ist, um zu wissen, dass es keine Glenn Brook Lane in meiner Nähe gibt, oder?

Ebenso muss eine Person, die Ring-Videomaterial betrachtet, um fahrende Autos von Personen zu unterscheiden, möglicherweise wissen, ob sie Material von einer Außenkamera (die viele Autos sieht) oder einer Innenkamera (die Autos nur durch Fenster sehen sollte) betrachtet.

Volle Offenlegung ist entscheidend

Es ist schwer zu wissen, wie Verbraucher auf die Art und Weise reagieren würden, wie ihre Daten zur Schulung von KI-Algorithmen verwendet werden können, wenn sie genau wüssten, wie es funktioniert und was genau zum Schutz ihrer Privatsphäre getan wurde. Ich habe das Gefühl, dass die meisten damit einverstanden wären (wenn die Leute sich nur um persönliche Daten und Datenschutz kümmern würden, würde Facebook nicht von 1,2 Milliarden Menschen genutzt werden).

Aber sie wissen es nicht, und keines der beteiligten Unternehmen scheint daran interessiert zu sein, es zu erklären. Kurze Aussagen gegenüber der Fachpresse sind nicht dasselbe wie das Informieren Ihrer Hunderte von Millionen Nutzer. Das Verstecken von permissiven Aussagen von 4.000 Wörtern tief in Ihrer dichten Allgemeinen Geschäftsbedingungen zählt nicht. Dieser Mangel an Offenlegung ist ein entscheidender Misserfolg.

Eines der größten Probleme ist die Tatsache, dass virtuelle Assistenten oft Dinge aufnehmen, die sie nicht sollten. Siri, Alexa und der Google-Assistent zeichnen grundsätzlich immer auf. Sie hören ein paar Sekunden auf einmal in einem ständig durchlaufenden Gerätepuffer und senden keine Informationen, bis sie den Weckruf hören: Hey Siri, Alexa oder OK Google / Hey Google. Erst danach aktivieren sie die Netzwerkverbindung und senden Ihre Daten in die Cloud.

Wie wir alle wissen, funktionieren diese Wake-Phrasen manchmal nicht, und manchmal werden sie ausgelöst, selbst wenn niemand sie sagt. Diese falschen Auslöser sind es, die die menschlichen „Grader“ dazu bringen, Ausschnitte aus privaten Gesprächen, Drogengeschäften, sexuellen Aktivitäten und so weiter zu hören.

Auch hier gibt es keine einfache Lösung. Diese Assistenten werden nicht perfekt darin sein, ihre Wecksätze zu verstehen, es sei denn, Menschen sagen ihnen tatsächlich, wann sie es falsch verstanden haben.

Die Arbeit selbst erledigen

Das bedeutet nicht unbedingt, dass wir unsere Daten an Dritte weitergeben müssen. Wir könnten das Training und die Bewertung selbst vornehmen. Apple könnte das iPhone so ändern, dass uns jedes Mal, wenn Siri aufgerufen wird, einfach eine „korrekt“- und eine „falsch“-Taste zur Verfügung stehen. Wenn der Benutzer einen falschen markiert, könnte er vielleicht mehr Informationen anbieten – den richtigen Satz oder die Art und Weise, wie die Antwort, die er erhalten hat, nicht den Erwartungen entsprach.

Intelligente Lautsprecher könnten mit Keyphrasen versehen werden, die es uns ermöglichen, das Gleiche mit unserer Stimme zu tun, vielleicht mit einem verbundenen Telefon, um Korrekturen vorzunehmen.

Dann konnte der angepasste Algorithmus – nicht aber unsere persönlichen Daten – an die Muttergesellschaft zurückgeschickt werden, um mit den Daten aller anderen kombiniert und in das nächste Software-Release integriert zu werden. Einige Unternehmen verwenden diese Methode bereits für bestimmte Arten von ML-Algorithmen, wie z.B. Smart Predictive Text in Tastaturen (wo wir alle naturgemäß bereits Fehler korrigieren).

Die überwiegende Mehrheit der Benutzer würde sich natürlich nie die Mühe machen, ihren virtuellen Assistenten zu bewerten und zu korrigieren. Der Sinn von ihnen ist es, diese Langeweile zu vermeiden, und wer will jeden falsch diagnostizierten Bewegungsauslöser auf seiner intelligenten Sicherheitskamera oder jedes falsch beschriftete Foto in einem KI-basierten Fotoalbum überprüfen müssen? Das ist Arbeit. Das ist das Gegenteil von dem, wofür KI da ist.

Aber mit einem genügend großen Publikum, und Apple kann sicherlich behaupten, dass das mit über einer Milliarde Geräten im Einsatz, selbst ein winziger Bruchteil der aktiven Benutzer, die ihre Geräte trainieren, eine riesige Stichprobe wäre. Es könnte sogar ausreichen, Siri zu einem hervorragenden KI-Assistenten zu machen, was sie derzeit definitiv nicht ist.

Wäre ein Unternehmen wie Apple bereit, diese zusätzliche Meile zu gehen? Das glatte Design und die „it just works“-Optik mit einer leicht zugänglichen Oberfläche zu beflecken, die aufgrund ihrer Existenz impliziert, dass etwas nicht oft genug funktioniert? Wahrscheinlich nicht. Apple wird wahrscheinlich schnell die Überprüfung seines Bewertungsprogramms abschließen und es mit einem Kippschalter in den Datenschutzeinstellungen wiederherstellen, um sich abmelden zu können. Es ist die einfachste Lösung, aber es ist auch eine verpasste Gelegenheit, mindestens einen kleinen Teil von Hunderten von Millionen Siri-Anwendern in aktive Siri-Verbesserer zu verwandeln.

*Jason Cross schreibt seit etwa 20 Jahren professionell über Technologie. Er will herausfinden, wie komplizierte Technologie funktioniert und sie so erklären, dass sie für jeden verständlich ist.