AML erklärt: Wie Angreifer KI- und ML-Systeme behindern

Bedrohungsakteure haben mehrere Möglichkeiten, Systeme und Modelle mit künstlicher Intelligenz und maschinellem Lernen zu täuschen oder auszunutzen, aber Sie können sich gegen ihre Taktiken schützen. [...]

cyber-security-gc774ef849_1280 — Foto: DarwinLaganzon/Pixabay

Je mehr Unternehmen Projekte im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) einführen, desto wichtiger wird deren Absicherung. In einem von IBM und Morning Consult im Mai veröffentlichten Bericht heißt es, dass von mehr als 7 500 Unternehmen weltweit bereits 35% KI einsetzen, was einem Anstieg von 13% gegenüber dem Vorjahr entspricht, während weitere 42% den Einsatz erproben. Allerdings gaben fast 20% der Unternehmen an, dass sie Schwierigkeiten bei der Datensicherung haben und dass dies die Einführung von KI bremst.

In einer im letzten Frühjahr von Gartner durchgeführten Umfrage waren Sicherheitsbedenken das größte Hindernis für die Einführung von KI, gleichauf mit der Komplexität der Integration von KI-Lösungen in die bestehende Infrastruktur.

Laut einem Bericht, den Microsoft im letzten Frühjahr veröffentlicht hat, sind 90% der Unternehmen nicht in der Lage, sich gegen adverses maschinelles Lernen (AML – Adversarial Machine Learning) zu verteidigen. Von den 28 großen und kleinen Unternehmen, die in dem Bericht untersucht wurden, verfügten 25 nicht über die Tools, die sie für die Sicherung ihrer ML-Systeme benötigten.

Die Sicherung von KI- und maschinellen Lernsystemen ist mit erheblichen Herausforderungen verbunden. Einige davon sind nicht nur auf KI beschränkt. So benötigen KI- und ML-Systeme beispielsweise Daten, und wenn diese Daten sensible oder geschützte Informationen enthalten, werden sie zum Ziel von Angreifern. Andere Aspekte der KI- und ML-Sicherheit sind neu, darunter die Verteidigung gegen adverses maschinelles Lernen.

Was ist adverses maschinelles Lernen?

Entgegen dem, was der Name vermuten lässt, ist adversariales maschinelles Lernen keine Art des maschinellen Lernens. Vielmehr handelt es sich um eine Reihe von Techniken, die Angreifer verwenden, um maschinelle Lernsysteme anzugreifen.

„Adverses maschinelles Lernen nutzt Schwachstellen und Besonderheiten von ML-Modellen aus“, sagt Alexey Rubtsov, leitender Forschungsmitarbeiter am Global Risk Institute und Professor an der Toronto Metropolitan University, ehemals Ryerson. Er ist der Autor eines unlängst erschienenen Dokuments über adverses maschinelles Lernen in der Finanzdienstleistungsbranche.

So kann AML beispielsweise dazu verwendet werden, dass ML-Handelsalgorithmen falsche Handelsentscheidungen treffen, betrügerische Operationen schwieriger zu erkennen sind, falsche Finanzberatung angeboten wird und auf Stimmungsanalysen basierende Berichte manipuliert werden.

Die verschiedenen Arten von Angriffen

Rubtsov zufolge lassen sich die Angriffe auf das maschinelle Lernen in vier Hauptkategorien einteilen: Vergiftung, Umgehung, Extraktion und Deduktion.

Vergiftung

Bei einem Vergiftungsangriff manipuliert ein Angreifer den Trainingsdatensatz, sagt Rubtsov. „Zum Beispiel werden die Daten absichtlich verzerrt, so dass die Maschine auf die falsche Weise lernt.“

Nehmen wir an, Ihr Haus hat eine KI-gesteuerte Sicherheitskamera. Ein Angreifer könnte jeden Morgen um 3 Uhr nachts an Ihrem Haus vorbeigehen und seinen Hund über Ihren Rasen laufen lassen, wodurch das Sicherheitssystem ausgelöst wird. Irgendwann werden Sie diese 3-Uhr-Alarme abschalten, um nicht von dem Hund geweckt zu werden. Der Hundespaziergänger liefert also Trainingsdaten, die besagen, dass etwas, das jede Nacht um 3 Uhr nachts passiert, ein harmloses Ereignis ist. Sobald das System darauf trainiert ist, alles zu ignorieren, was um 3 Uhr morgens passiert, greifen sie an.

Umgehung

Bei einem Umgehungsangriff wurde das Modell bereits trainiert, aber der Angreifer ist in der Lage, die Eingangsdaten leicht zu verändern. „Ein Beispiel könnte ein Stoppschild sein, auf das Sie einen Aufkleber kleben, und die Maschine interpretiert es als Halteverbot statt als Stoppschild“, sagt Rubtsov.

In unserem Beispiel mit dem Hundespaziergänger könnte der Dieb ein Hundekostüm anziehen, um in Ihr Haus einzubrechen. „Der Umgehungsangriff ist für die Maschine wie eine optische Täuschung“, sagt Rubtsov.

Extraktion

Bei einem Extraktionsangriff verschafft sich der Angreifer eine Kopie Ihres KI-Systems. „Manchmal kann man das Modell extrahieren, indem man einfach beobachtet, welche Eingaben man dem Modell gibt und welche Ausgaben es liefert“, sagt Rubtsov. „Man stößt das Modell an und beobachtet die Reaktion. Wenn man das Modell oft genug anstupst, kann man seinem eigenen Modell beibringen, sich genauso zu verhalten.“

Im Jahr 2019 generierte beispielsweise eine Schwachstelle im E-Mail-Schutzsystem von Proofpoint E-Mail-Kopfzeilen mit einer eingebetteten Bewertung, wie wahrscheinlich es war, dass es sich um Spam handelte. Mithilfe dieser Bewertungen konnte ein Angreifer eine nachgemachte Spam-Erkennungsmaschine erstellen, um Spam-E-Mails zu erstellen, die sich der Erkennung widersetzt hätten.

Wenn ein Unternehmen ein kommerzielles KI-Produkt verwendet, könnte der Angreifer auch eine Kopie des Modells erwerben oder den Dienst in Anspruch nehmen. Angreifern stehen beispielsweise Plattformen zur Verfügung, auf denen sie ihre Malware gegen Antivirenprogramme testen können.

In dem Beispiel mit dem Hundespaziergang könnte sich der Angreifer ein Fernglas besorgen, um herauszufinden, welche Marke von Sicherheitskamera Sie haben, und dieselbe kaufen, um herauszufinden, wie sie umgangen werden kann.

Deduktion

Bei einem Deduktionsangriff finden die Angreifer heraus, welcher Trainingsdatensatz zum Trainieren des Systems verwendet wurde, und nutzen Schwachstellen oder Verzerrungen in den Daten aus. „Wenn man die Trainingsdaten ermitteln kann, kann man den gesunden Menschenverstand oder ausgeklügelte Techniken einsetzen, um daraus einen Vorteil zu ziehen“, sagt Rubtsov.

In der Situation mit dem Hundespaziergang könnte der Angreifer zum Beispiel das Haus überwachen, um herauszufinden, wie der normale Verkehr in der Gegend aussieht, und feststellen, dass jeden Morgen um 3 Uhr ein Hundespaziergänger vorbeikommt.

Verteidigung gegen adverses maschinelles Lernen

Rubtsov empfiehlt, dass Unternehmen sicherstellen, dass ihre Trainingsdatensätze keine Verzerrungen enthalten und dass der Angreifer die Daten nicht absichtlich verfälschen kann. „Einige Modelle des maschinellen Lernens verwenden Reinforcement Learning und lernen im laufenden Betrieb, wenn neue Daten eintreffen“, sagt er. „In diesem Fall muss man vorsichtig sein, wie man mit neuen Daten umgeht.

Bei der Verwendung eines Systems eines Drittanbieters empfiehlt Rubtsov den Unternehmen, sich beim Anbieter zu erkundigen, wie sie ihre Systeme gegen Angriffe von außen schützen. „Viele Anbieter haben nichts in petto“, sagt er. „Sie sind nicht informiert darüber.“

Die meisten Angriffe auf normale Software können laut Gartner auch auf KI angewendet werden. Daher können viele herkömmliche Sicherheitsmaßnahmen auch zum Schutz von KI-Systemen eingesetzt werden. So können beispielsweise Lösungen, die Daten vor dem Zugriff oder der Kompromittierung schützen, auch Trainingsdatensätze vor Manipulationen bewahren.

Gartner empfiehlt Unternehmen, zusätzliche Maßnahmen zu ergreifen, wenn sie KI- und maschinelle Lernsysteme schützen wollen. Um die Integrität von KI-Modellen zu schützen, empfiehlt Gartner, dass Unternehmen vertraute KI-Prinzipien anwenden und Validierungsprüfungen für Modelle durchführen. Zweitens empfiehlt Gartner zum Schutz der Integrität von KI-Trainingsdaten den Einsatz von Technologien zur Erkennung von Datenvergiftung.

MITRE, das für sein branchenweit standardisiertes ATT&CK-Framework für Angreifer-Taktiken und -Techniken bekannt ist, hat sich mit Microsoft und 11 weiteren Organisationen zusammengetan, um ein Angriffs-Framework für KI-Systeme mit der Bezeichnung Adversarial Machine Learning Threat Matrix zu erstellen. Sie wurde in Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS) umbenannt und umfasst 12 Stufen von Angriffen auf ML-Systeme.

Einige Anbieter haben mit der Veröffentlichung von Tools begonnen, die Unternehmen dabei helfen sollen, ihre KI-Systeme zu sichern und sich gegen maschinelles Lernen durch Angreifer zu schützen. Im Mai 2021 veröffentlichte Microsoft Counterfit, ein Open Source-Automatisierungstool für Sicherheitstests von KI-Systemen. „Dieses Tool entstand aus unserem eigenen Bedürfnis heraus, Microsofts KI-Systeme auf Schwachstellen zu prüfen“, so Will Pearce, Leiter des KI-Red-Teams von Microsoft für Azure Trustworthy ML, in einem Blogbeitrag. „Counterfit begann als eine Sammlung von Angriffsskripten, die speziell für einzelne KI-Modelle geschrieben wurden, und entwickelte sich dann zu einem generischen Automatisierungstool, um mehrere KI-Systeme in großem Umfang anzugreifen. Heute setzen wir Counterfit routinemäßig als Teil unserer KI-Red-Team-Operationen ein.“

Das Tool ist nützlich, um Techniken im ATLAS-Angriffsframework von MITRE zu automatisieren, so Pearce, aber es kann auch in der KI-Entwicklungsphase eingesetzt werden, um Schwachstellen zu finden, bevor sie in die Produktion gelangen.

IBM verfügt auch über ein Open Source-Tool zur Abwehr von Angriffen auf maschinelles Lernen, die Adversarial Robustness Toolbox, die jetzt als Projekt der Linux Foundation läuft. Dieses Projekt unterstützt alle gängigen ML-Frameworks und umfasst 39 Angriffsmodule, die sich in vier Hauptkategorien unterteilen lassen: Umgehung, Vergiftung, Extraktion und Deduktion.

KI mit KI bekämpfen

In Zukunft könnten Angreifer das maschinelle Lernen auch nutzen, um Angriffe auf andere ML-Systeme zu entwickeln, sagt Murat Kantarcioglu, Professor für Informatik an der University of Texas. Eine neue Art von KI sind zum Beispiel generative Angriffssysteme. Diese werden in der Regel zur Erstellung von Fälschungen verwendet, d. h. von äußerst realistischen Fotos oder Videos, die den Menschen vorgaukeln, sie seien echt. Angreifer verwenden sie meist für Online-Betrügereien, aber das gleiche Prinzip kann auch zur Erstellung von unerkennbarer Malware eingesetzt werden.

„In einem generativen KI-Netzwerk wird ein Teil als Diskriminator und ein Teil als Generator bezeichnet, und beide greifen sich gegenseitig an“, sagt Kantarcioglu. Eine Antiviren-KI könnte zum Beispiel versuchen herauszufinden, ob es sich um Malware handelt. Eine KI, die Malware generiert, könnte versuchen, Malware zu erstellen, die das erste System nicht abfangen kann. Wenn man die beiden Systeme wiederholt gegeneinander antreten lässt, könnte das Endergebnis eine Malware sein, die für niemanden mehr zu erkennen ist.

*Maria Korolov berichtet seit 20 Jahren über neue Technologien und aufstrebende Märkte.