5. Dezember 2025

Spieglein, Spieglein and der Wand, welche KI ist die beste im Cybersecurity-Land?

Sophos-Experten erstellen ein neues Benchmark-System zur Einschätzung des Nutzens verschiedener Sprachmodellen aus dem Bereich Maschinelles Lernen, sogenannte Large-Language-Modelle (LLMs), für die Cybersicherheit. Ein alter Bekannter schneidet dabei am besten an. [...]

Die Technologie des maschinellen Lernens mit großen Sprachmodellen (LLM) verbreitet sich rasant, wobei mittlerweile mehrere konkurrierende Open-Source- und proprietäre Architekturen verfügbar sind. Zusätzlich zu den generativen Textaufgaben, die mit Plattformen wie ChatGPT verbunden sind, haben sich LLMs nachweislich in vielen Textverarbeitungsanwendungen als nützlich erwiesen – von der Unterstützung beim Schreiben von Code bis zur Kategorisierung von Inhalten.

Angesichts der Vielfalt an zur Verfügung stehenden LLMs stehen Forscher vor einer herausfordernden Frage: Wie lässt sich ermitteln, welches Modell für ein bestimmtes Problem des maschinellen Lernens am besten geeignet ist?

SophosAI hat eine Reihe von Möglichkeiten untersucht, LLMs bei Aufgaben im Zusammenhang mit der Cybersicherheit einzusetzen. Eine gute Methode zur Auswahl eines Modells besteht darin, Benchmark-Aufgaben zu erstellen – typische Probleme, mit denen sich die Fähigkeiten des Modells einfach und schnell beurteilen lassen.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Falls die Idee von KI als Teil Ihres Cybersecurity-Toolkits noch unvorstellbar ist, dann kann dieses Video eventuell als Sprungbrett dienen.

Allerdings spiegelt die Leistung bei den momentan verfügbaren, allgemeinen Aufgaben für Benchmarks möglicherweise nicht genau wider, wie gut Modelle im Kontext der Cybersicherheit funktionieren.

Durch die Verallgemeinerung offenbaren sie möglicherweise keine Unterschiede im sicherheitsspezifischen Fachwissen zwischen Modellen, die sich aus ihren Trainingsdaten ergeben. Aus diesem Grund habe die Forscher aus dem SophosAI-Team drei neue Benchmarks erstellt, die auf Aufgaben basieren, die potenziell grundlegende Voraussetzungen für die meisten LLM-basierten defensiven Cybersicherheitsanwendungen sind:

Das LLM fungiert als Assistent bei der Untersuchung von Vorfällen, indem es Fragen zur Telemetrie in natürlicher Sprache in SQL-Anweisungen umwandelt
Das LLM generiert Vorfallzusammenfassungen aus Daten eines Security Operations Centers (SOC).
Das LLM bewertet den Schweregrad des Vorfalls.

GPT-4 mit bester Leistung

Diese Benchmarks dienen zwei Zwecken: der Identifizierung grundlegender Modelle mit Potenzial für eine Feinabstimmung und der anschließenden Bewertung der standardmäßigen (nicht abgestimmten) Leistung dieser Modelle.

Insgesamt hat das Sophos-AI-Team 14 Modelle auf Basis von Kriterien wie Modellgröße, Beliebtheit, Kontextgröße und Aktualität ausgewählt und anhand der Benchmarks getestet – darunter unterschiedlich große Versionen der Modelle LlaMa2 und CodeLlaMa von Meta, Amazon-Titan-Large und natürlich auch der Branchenprimus GPT-4.

Das OpenAI-Tool zeigte bei den ersten beiden Aufgaben eindeutig die beste Leistung. Interessant: beim letzten Benchmark schnitt keines der Modelle bei der Kategorisierung der Schwere des Vorfalls genau genug ab, um besser zu sein als die Zufallsauswahl.

Aufgabe 1: Assistent für die Untersuchung von Vorfällen

Bei der ersten Benchmark-Aufgabe bestand das Hauptziel darin, die Leistung von LLMs als SOC-Analystenassistenten bei der Untersuchung von Sicherheitsvorfällen zu bewerten. Dabei mussten sie relevante Informationen auf der Grundlage von Abfragen in natürlicher Sprache abrufen – eine Aufgabe, mit der das SophosAI-Team bereits experimentiert hatte.

Die Bewertung der Fähigkeit von LLMs, Abfragen in natürlicher Sprache unterstützt durch kontextbezogene Schemakenntnisse in SQL-Anweisungen umzuwandeln, hilft dabei, ihre Eignung für diese Aufgabe zu bestimmen.

Aufgabe 2: Zusammenfassung des Vorfalls

In Security Operations Centern (SOCs) untersuchen Bedrohungsanalysten täglich zahlreiche Sicherheitsvorfälle. In der Regel werden diese Vorfälle als eine Abfolge von Ereignissen dargestellt, die auf einem Benutzerendpunkt oder Netzwerk im Zusammenhang mit erkannten verdächtigen Aktivitäten aufgetreten sind.

Bedrohungsanalysten nutzen diese Informationen, um weitere Untersuchungen durchzuführen. Allerdings kann diese Abfolge von Ereignissen für die Analysten oft sehr unübersichtlich sein, was es schwierig macht, die bemerkenswerten Ereignisse zu identifizieren.

Hier können große Sprachmodelle wertvoll sein, da sie bei der Identifizierung und Organisation von Ereignisdaten auf der Grundlage einer bestimmten Vorlage helfen können und es Analysten erleichtern, das Geschehen zu verstehen und ihre nächsten Schritte festzulegen.

Aufgabe 3: Bewertung der Schwere des Vorfalls

Die dritte von Sophos bewertete Benchmark-Aufgabe war eine modifizierte Version eines traditionellen ML-Sec-Problems: Die Bestimmung, ob ein beobachtetes Ereignis Teil einer harmlosen Aktivität oder eines Angriffs ist.

SophosAI verwendet spezielle Machine-Learning (ML)-Modelle, die für die Auswertung bestimmter Arten von Ereignisartefakten wie tragbare ausführbare Dateien und Befehlszeilen entwickelt wurden. Bei dieser Aufgabe bestand das Ziel darin, festzustellen, ob ein LLM eine Reihe von Sicherheitsereignissen untersuchen und deren Schweregrad beurteilen kann.

Noch einige Leitplanken für LLMs in der Cybersicherheit nötig

Auch wenn der Benchmark-Test sicherlich nicht alle potenziellen Problemstellungen berücksichtigen kann, lässt sich nach Abschluss der Untersuchung feststellen, dass LLMs die Bedrohungssuche und die Untersuchung von Vorfällen wirksam unterstützen und damit als sinnvoller SOC-Assistent eingesetzt werden können – allerdings sind weiterhin einige Leitplanken und Anleitungen notwendig.

Bei der Zusammenfassung von Vorfallinformationen aus Rohdaten erbringen die meisten LLMs eine ausreichende Leistung, es gibt jedoch Raum für Verbesserungen durch Feinabstimmung.

Allerdings bleibt die Bewertung einzelner Artefakte oder Gruppen von Artefakten eine herausfordernde Aufgabe für vorab trainierte und öffentlich verfügbare LLMs. Um dieses Problem anzugehen, ist möglicherweise ein spezialisiertes LLM erforderlich, das speziell auf Cybersicherheitsdaten geschult ist.

Alle Details zu den Untersuchungsergebnissen und der Benchmark-Erstellung können im englischen SophosAI-Blogbeitrag „Benchmarking the Security Capabilities of Large Language Models“ nachgelesen werden.

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

5. Dezember 2025 Nicholas Jackson *

Ein Blick in die Praxis zeigt: IT-Sicherheit scheitert nicht an Technologien oder Fehlverhalten, sondern bereits grundsätzlich an einem Mangel an Unternehmenskultur. Wenn Cybersicherheit in einer Organisation nur als eine schlecht durchgesetzte Aufgabe von anderen für andere verstanden wird, entsteht vielleicht eine oberflächliche Compliance, aber keine wirkliche Cyberresilienz. […]

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

5. Dezember 2025

Um den Erfolg agiler Arbeitsweisen zu messen, setzen Österreichs Unternehmen auf klare Kennzahlen. Dabei ist vor allem die Kundenzufriedenheit wichtig. Gleichzeitig gewinnt Effizienz im Hinblick auf die angespannte Wirtschaftslage an Bedeutung: kürzere Projektlaufzeiten werden immer wichtiger, genauso wie die Kontrolle der Implementierungskosten. […]

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

5. Dezember 2025 Daniel Bader *

Zugegeben, am kryptischen Namen des brandneuen 14-Zoll-Notebooks sollte Hersteller Medion noch etwas feilen. Das, worauf es bei einem Laptop aber ankommt, ist vom Feinsten. Der PCtipp-Test. […]

Michael Maier, Director Austria iteratec (c) iteratec

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

4. Dezember 2025 Michael Maier*

Wie weit wird die Evolution der Künstlichen Intelligenz gehen und wie wird sie sich auf Wirtschaft und Gesellschaft als Ganzes auswirken? Was für Privatpersonen interessante Fragen sind, sind für Unternehmer existenzielle Themen, schließlich müssen diese wirtschaftlich gegenüber Konkurrenten bestehen, von denen viele bereits an einer effektiven Nutzung von KI arbeiten. […]

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

4. Dezember 2025

Damit KI-Anwendungen produktiv und skalierbar eingesetzt werden können, benötigen Unternehmen zunächst eine tragfähige technologische und organisatorische Basis. Insbesondere moderne Datenplattformen, klare Governance-Strukturen und eine hohe Datenqualität gelten als Voraussetzung für erfolgreiche KI-Nutzung. Aber genau hier besteht noch Nachholbedarf. […]

Diese Trends bestimmen 2026 das SAP-Universum

4. Dezember 2025

Vor allem Datensouveränität, Compliance und das nahende Ende des Supports für Legacy-Lösungen stehen im Fokus – neben den Dauerthemen Cloud und KI. […]

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

4. Dezember 2025

Die neue Marke vereint den operativen Kern des Tech-Consulting-Dienstleisters und bekräftigt sein Engagement, Wirtschaft und Gesellschaft mit Technologie zu unterstützen. […]

Produktionsplanung 2026: Worauf es ankommt

4. Dezember 2025

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Monitor Eizo FlexScan EV2740S im Test

4. Dezember 2025 Daniel Bader *

Was soll denn an einem 27 Zoll großen Monitor für Büroumgebungen schon besonders sein? Vieles, wie unser Test klar macht. […]

Spieglein, Spieglein and der Wand, welche KI ist die beste im Cybersecurity-Land?

Sophos-Experten erstellen ein neues Benchmark-System zur Einschätzung des Nutzens verschiedener Sprachmodellen aus dem Bereich Maschinelles Lernen, sogenannte Large-Language-Modelle (LLMs), für die Cybersicherheit. Ein alter Bekannter schneidet dabei am besten an. [...]

GPT-4 mit bester Leistung

Aufgabe 1: Assistent für die Untersuchung von Vorfällen

Aufgabe 2: Zusammenfassung des Vorfalls

Aufgabe 3: Bewertung der Schwere des Vorfalls

Noch einige Leitplanken für LLMs in der Cybersicherheit nötig

Mehr Artikel

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

Diese Trends bestimmen 2026 das SAP-Universum

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

Produktionsplanung 2026: Worauf es ankommt

Monitor Eizo FlexScan EV2740S im Test

Be the first to comment

Leave a Reply Antwort abbrechen