Machine Learning: Fehler in der Anwendung mit fataler Auswirkung

Neben den Machenschaften der Hacker ist im jungen Stadium des Machine Learning sicherlich der Entwickler und Anwender die größte Gefahr. Machine Learning ist neu und komplex und das Potenzial für selbst verschuldetes Versagen der Technologie ist hoch. [...]

Wenn die Trainingsdaten eine falsche oder nicht existente Korrelation enthalten, kann Machine Learning leicht die falschen Lektionen lernen. (c) Fotolia/phonlamaiphoto
Wenn die Trainingsdaten eine falsche oder nicht existente Korrelation enthalten, kann Machine Learning leicht die falschen Lektionen lernen. (c) Fotolia/phonlamaiphoto

Machine Learning ist eine Technologie, die alles verändern könnte. Sie hat sich bereits als bahnbrechende Technologie für so unterschiedliche Aufgaben wie das Aufspüren von Bankbetrug, das Fahren von Autos, das Verstehen menschlicher Sprache und das Erkennen von Malware bewährt.

In naher Zukunft werden Unternehmen viele Millionen investieren und Menschen werden Machine-Learning-Lösungen entwickeln und einsetzen. Doch neue Technologien führen oft zu neuen Fehlerquellen und Möglichkeiten für Cyberangriffe. Neben den Machenschaften der Hacker ist im jungen Stadium des Machine Learning sicherlich der Entwickler und Anwender die größte Gefahr. Machine Learning ist neu und komplex und das Potenzial für selbst verschuldetes Versagen der Technologie ist hoch.

Definition Machine Learning und Abgrenzung zu herkömmlicher Software

Traditionelle Software ist im Wesentlichen ein Regelwerk das festlegt, wonach sich ein Computer in einem bestimmten Kontext verhalten soll. Sie ist hervorragend im Umgang mit strukturierten Daten und insbesondere mit Dingen, in denen wir schlecht sind, namlich darin, hochkomplexe Befehlssätze perfekt und mit enormer Geschwindigkeit auszuführen.

Machine Learning hingegen ist ein Zweig der Künstlichen Intelligenz (KI). Hier werden Softwaremodelle verwendet, die anhand von Beispielen trainiert werden und ihre eigenen Regeln erstellen. Der Computerpionier Arthur Lee Samuel hält das maschinelle Lernen für einen „Forschungsbereich, der Computern die Möglichkeit gibt zu lernen, ohne explizit programmiert zu werden“. Während sich herkömmliche Software durch Transparenz und nachweislich korrektes Verhalten auszeichnet, ist Machine Learning unscharf, flexibel und undurchsichtig. Eine ausführlichere Abhandlung zum Thema Machine Learning ist auf Naked Security verfügbar.

Gutes Füttern ist Grundvoraussetzung

Modernes Machine Learning funktionieren gut, weil es komplexe Zusammenhänge aus Trainingsdaten lernen kann. Auf diese Weise erkennt es Dinge, seien es Gesichter, Betrugsmuster oder Spam, mit denen menschliche Programmierer nicht mithalten können. Aber diese Fähigkeit kann auf unerwartete Weise zum Bumerang werden. Wenn die Trainingsdaten eine falsche oder nicht existente Korrelation enthalten, kann Machine Learning leicht die falschen Lektionen lernen. Eine fatale Situation denn vielfach wird Machine Learning mit Big Data gefüttert, Daten, die voll von falschen Korrelationen sind.

Was ist TrensorFlow? Googles Open-Source-Bibliothek für maschinelles Lernen im Fokus.

Ein Beispiel: Man stelle sich ein Machine-Learning-Modell vor, um Spam-E-Mails zu erkennen. Die Trainingsdaten sind eine Datenbank mit E-Mails, die von Menschen gewissenhaft als „Ham“ (E-Mails die wir mögen) oder „Spam“(E-Mails die wir nicht haben wollen) gekennzeichnet sind. Nun passiert es, dass die Trainingsdaten eine plausible aber falsche Korrelation enthalten: Zufällig landet jede E-Mail mit einem Bildanhang, die von einer IP-Adresse mit der Endung 12 stammt, im Spam-Stapel. Und damit ist es geschehen: obwohl alles mit größter Sorgfalt gepflegt wurde, erhält das Machine-Learning-Modell Datenmüll – mit Folgen. Das komplexe Modell kann daraus schließen, dass das Vorhandensein der IP-Adresse eines Absenders, die mit 12 endet, in einer E-Mail mit einem Bildanhang ein sicherer Indikator für Spam ist, obwohl dies außerhalb unserer Trainingsdaten nicht der Fall ist. Wenn dieses Modell in der Security eingesetzt würde, blockiert die Anti-Spam-Engine eine Menge korrekter E-Mails von Personen, deren IP-Adresse mit einer 12 endet.

Tipps für das richtige Füttern von Machine Learning

Es gibt keine einfache Lösung für das Machine Learning. Aber es gibt einige Punkte auf die man achten sollte, um möglichst viele Probleme im Vorfeld auszuschließen:

  • Verwendung von guten Daten. Es ist wichtig, das Modell mit vielen gut beschrifteten Daten (Labels) aus Quellen zu füttern, die ein reales Bild repräsentieren.
  • Daten müssen bereinigt werden. Es ist mühevoll Daten zu reinigen, zu beschriften oder zu ändern, um Fehler zu minimieren. Aber der Aufwand lohnt.
  • Das Modell sollte nicht zu stark trainiert werden, um es nicht zu überfrachten. Denn es geht nicht darum, die Trainingsdaten mit perfekter Klarheit zu erkennen, sondern darum, Dinge zu erkennen, die Ähnlichkeiten mit den Trainingsdaten aufweisen.
  • False Positives und False Negatives sollten beim Test genau beachtet werden und das Modell sollte auch bei der Bereinigung der Daten unterstützen. Achtung: manchmal sind nur die Label falsch und das Modell ist richtig.
  • Deep Learning sollte bevorzugte Methode des maschinellen Lernens sein. Untersuchungen haben ergeben, dass es besser ist, mit vielen unterschiedlichen Labels umzugehen, als mit flacheren Lernmethoden.

Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*