Tuning-Tool für große Sprachmodelle als Open-Source-Programm

Große Sprachmodelle (LLMs) haben das Potenzial, die Arbeitslast zu automatisieren und zu reduzieren, einschließlich der von Cybersicherheitsanalysten. Generischen LLMs fehlt jedoch das domänenspezifische Wissen, um diese Aufgaben gut zu bewältigen. Aus diesem Grund hat das SophosAI-Team ein Framework zusammengestellt, das DeepSpeed nutzt. [...]

Damit ein LLM seine volle Wirkung entfalten kann, müssen alle seine Parameter vorab trainiert werden, um das firmeneigene Wissen eines Unternehmens zu erlernen. Dieses Unterfangen kann ressourcenintensiv und zeitaufwendig sein. (c) stock.adobe.com/wipawan

Große Sprachmodelle (Large Language Models, LLMs) haben das Potenzial, die Arbeitslast zu automatisieren und zu reduzieren, einschließlich der von Cybersicherheitsanalysten und Incident Respondern. Generischen LLMs fehlt jedoch das domänenspezifische Wissen, um diese Aufgaben gut zu bewältigen. Auch wenn sie mit Trainingsdaten erstellt wurden, die Cybersicherheitsressourcen enthalten, reicht dies oft nicht aus, um spezialisiertere Aufgaben zu übernehmen, die aktuelles und in einigen Fällen auch proprietäres Wissen erfordern, um sie gut auszuführen – Wissen, das den LLMs bei ihrer Ausbildung nicht zur Verfügung stand.

Es gibt mehrere bestehende Lösungen für das Tuning von „Standard“-LLMs (unveränderte LLMs) für bestimmte Arten von Aufgaben. Doch leider waren diese Lösungen für die Anwendungsarten von LLMs, die Sophos X-Ops verwendet, unzureichend. Aus diesem Grund hat das SophosAI-Team ein Framework zusammengestellt, das DeepSpeed nutzt, eine von Microsoft entwickelte Bibliothek, mit der die Inferenz eines Modells mit (theoretisch) Billionen von Parametern trainiert und abgestimmt werden kann. Dabei wird die Rechenleistung und die Anzahl der beim Training verwendeten Grafikprozessoren (GPUs) erhöht. Das Framework steht unter Open-Source-Lizenz zur Verfügung und ist in der GitHub-Repository von Sophos zu finden.

Framework-Version als Open Source verfügbar

Damit ein LLM seine volle Wirkung entfalten kann, müssen alle seine Parameter vorab trainiert werden, um das firmeneigene Wissen eines Unternehmens zu erlernen. Dieses Unterfangen kann ressourcenintensiv und zeitaufwendig sein. Deshalb hat Sophos sich für sein Trainingsframework, das in Python implementiert wurde, an DeepSpeed gewandt. Die Version des Frameworks, die Sophos als Open Source freigibt, kann im Amazon Web Services SageMaker Service für maschinelles Lernen ausgeführt aber auch an andere Umgebungen angepasst werden. Trainingsframeworks (einschließlich DeepSpeed) ermöglichen die Skalierung großer Modelltrainingsaufgaben durch Parallelität.

Obwohl viele Teile des Frameworks nicht neu sind und auf bestehende Open-Source-Bibliotheken zurückgreifen, hat das SophosAI-Team einige der wichtigsten Komponenten zusammengefasst, um die Nutzung zu erleichtern. Zum Zeitpunkt seiner Erstellung war dieses Tool-Repository das erste, das Training und beide DeepSpeed-Inferenztypen (DeepSpeed-Inferenz und ZeRO-Inferenz) in einem konfigurierbaren Skript kombiniert. Es war auch das erste Repository, das einen benutzerdefinierten Container für die Ausführung der neuesten DeepSpeed-Version auf dem SageMaker von Amazon Web Service erstellte. Und es war das erste Repository, das verteilte Skripte ausführt.

Weitere technische Details sind im folgenden Sophos-Artikel aufgeführt: DeepSpeed: a tuning tool für large language models


Mehr Artikel

News

Produktionsplanung 2026: Worauf es ankommt

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Maximilian Schirmer (rechts) übergibt zu Jahresende die Geschäftsführung von tarife.at an Michael Kreil. (c) tarife.at
News

tarife.at ab 2026 mit neuer Geschäftsführung

Beim österreichischen Vergleichsportal tarife.at kommt es mit Jahresbeginn zu einem planmäßigen Führungswechsel. Michael Kreil übernimmt mit 1. Jänner 2026 die Geschäftsführung. Maximilian Schirmer, der das Unternehmen gegründet hat, scheidet per 14. April 2026 aus der Gesellschaft aus. […]

News

Warum Unternehmen ihren Technologie-Stack und ihre Datenarchitektur überdenken sollten

Seit Jahren sehen sich Unternehmen mit einem grundlegenden Datenproblem konfrontiert: Systeme, die alltägliche Anwendungen ausführen (OLTP), und Analysesysteme, die Erkenntnisse liefern (OLAP). Diese Trennung entstand aufgrund traditioneller Beschränkungen der Infrastruktur, prägte aber auch die Arbeitsweise von Unternehmen.  Sie führte zu doppelt gepflegten Daten, isolierten Teams und langsameren Entscheidungsprozessen. […]

News

Windows 11 im Außendienst: Plattform für stabile Prozesse

Das Betriebssystem Windows 11 bildet im technischen Außendienst die zentrale Arbeitsumgebung für Service, Wartung und Inspektionen. Es verbindet robuste Geräte, klare Abläufe und schnelle Entscheidungswege mit einer einheitlichen Basis für Anwendungen. Sicherheitsfunktionen, Updates und Unternehmensrichtlinien greifen konsistent und schaffen eine vertrauenswürdige Plattform, auf der sowohl Management als auch Nutzer im Feld arbeiten können. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*