xLSTM – Potenzial und Anwendungsmöglichkeiten

Im Rahmen des Kongress „Expedition KI 3.0“ im Vienna Airport Conference & Innovation Center am Flughafen Wien sprach die IT Welt mit Univ.-Prof. Sepp Hochreiter, Leiter des Instituts für Machine Learning an der JKU Linz, über seine Entwicklung xLSTM und mögliche Anwendungsszenarien. [...]

KI-Forscher Sepp Hochreiter, Leiter des Instituts für Machine Learning Johannes-Kepler-Universität Linz (c) JKU Linz
KI-Forscher Sepp Hochreiter, Leiter des Instituts für Machine Learning Johannes-Kepler-Universität Linz (c) JKU Linz

Woran forschen Sie gerade?

Sepp Hochreiter: Ich arbeite an der Weiterentwicklung des xLSTM-Modells, das auf meinem LSTM-Modell basiert. Unsere Firma NXAI wurde gegründet, um dieses Modell zu entwickeln und zu finanzieren. Das xLSTM ist in der Anwendung schneller als aktuelle Modelle, da es linear in der Kontextlänge skaliert wohingegen die aktuelle Technologie, Transformer, quadratisch skalieren. Wir haben bereits 10 Millionen Euro an Rechenleistung für Modelle bis zu 1,3 Milliarden Parametern investiert und konnten zeigen, dass xLSTM besser ist als bestehende Technologien wie Transformer und Mamba. Nun haben wir auch Modelle mit 7 Milliarden Parametern trainiert und es zeigt sich, dass wir mit Transformern und Mamba mithalten können, aber viel schneller in der Inferenz, d.h. der Anwendung sind.  

Woran arbeiten Sie noch in NXAI?

Wir konstruieren KI-Modelle, die auf numerischen und physikalischen Simulationen basieren. Die KI-Modelle erkennen Makrostrukturen und modellieren diese, was die Berechnungen erheblich beschleunigt. Beispielsweise können wir Simulationen, die normalerweise sieben bis acht Tage dauern, in zwei Sekunden durchführen. 

Sind Sie bereits in der Anwendung Ihrer Forschung?

Ja, wir nutzen das Modell für Simulationen in verschiedenen Branchen, wie Maschinenbau und Digital Twins. Durch die schnelle Berechnung können wir Prozesse optimieren und Probleme frühzeitig erkennen, was beispielsweise besonders in der Kernfusion wichtig ist. Unsere Kunden sind oft überrascht von den Möglichkeiten, die wir mit ihren Daten demonstrieren können.

Welche Infrastruktur wird benötigt, um diese Modelle zu betreiben? 

Die bestehenden numerischen Simulationen sind langsam, liefern aber die notwendigen Daten. Wir benötigen Experten aus den jeweiligen Domänen, um die Simulationen sinnvoll zu gestalten. Mit diesen Daten können wir dann unsere Modelle trainieren. Es ist wichtig, das Erlernte zu bewahren und kontinuierlich zu verbessern. 

Sind synthetische Daten für Sie relevant? 

Ja, synthetische Daten sind sogar wichtiger für uns, da es oft nicht genug echte Daten gibt. Gute Simulationen liefern ausreichend Daten, um große Modelle zu trainieren, auch wenn sie nicht perfekt die Realität abbilden. 

Wie steht es um die Sicherheit Ihrer Systeme? Ist Security bereits integriert oder müssen die Unternehmen dafür sorgen?

Sicherheit ist nicht integriert, das überlassen wir den Experten. Wir könnten, wenn es gewünscht wird, jedoch Modelle entwickeln, die Domainshifts erkennen und darauf reagieren. Unser Fokus liegt gegenwärtig jedoch auf der Verbesserung der Modelle selbst. 

Können Ihre Modelle auch on the edge, also auf Endgeräten eingesetzt werden? 

Ja, das xLSTM ist perfekt für die Inferenz auf Endgeräten geeignet. Es benötigt weniger FLOPs, weniger Speicher und kann an die Ressourcen des Endgeräts angepasst werden. Das macht es ideal für Embedded Systeme und Anwendungen in der Robotik, autonome Produktionssystem oder selbstfahrenden Autos, wo schnelle Reaktionen erforderlich sind. 

Was halten Sie vom EU AI Act? 

Der AI Act hat gute Ansätze, wie der risikobasierte Ansatz, aber auch Schwächen, wobei hier vor allem die schlechte Definition von KI zu nennen ist. Hier gilt nach wie vor, dass jede mathematische Funktion Künstliche Intelligenz ist. Demnach wäre y=2*x eine KI. Das ist absurd.

Es ist wichtig, dass alle Marktteilnehmer gleich behandelt werden. Es besteht die Gefahr, dass europäische Unternehmen gegenüber den außereuropäischen Marktteilnehmern aus den USA oder China benachteiligt werden, wenn der Act nicht sorgfältig umgesetzt wird. Die Rechtsunsicherheit ist ein Hemmnis.

Wie gehen Sie mit Halluzinationen in Sprachmodellen um? 

Halluzinationen sind ein bekanntes Problem bei autoregressiven LLMs wie ChatGPT. Diese Systeme werden trainiert, das jeweils nächste Wort vorherzusagen, egal, ob es das System kann oder nicht, es wird vorhergesagt. Wir arbeiten daran, Unsicherheiten zu erkennen und zu markieren. Eine Möglichkeit ist die Verwendung von Retrieval Augmented Generation, um faktenbasierte Antworten zu liefern. Aber ja, es wird immer Halluzinationen geben, aber wir können sie minimieren und kennzeichnen. 

Wie sehen Sie die Zukunft der KI und deren Einfluss auf die Gesellschaft? 

KI hat das Potenzial, viele Bereiche zu revolutionieren, aber wovor ich Angst habe, das ist die Verbreitung von Fake News. Deswegen ist es wichtig, dass wir verantwortungsvoll mit Künstlicher Intelligenz umgehen, sie dokumentieren und überwachen und derart sicherstellen, dass sie zum Wohl der Gesellschaft eingesetzt wird. 


Mehr Artikel

Der Autor Franz Kögl ist Vorstand bei IntraFind in München, einem Spezialisten für Enterprise Search und KI mit Kunden aller Unternehmensgrößen. (c) IntraFind
Kommentar

KI in KMU – so klappt’s nachhaltig und sicher

Generative KI, oder auf Neudeutsch GenAI, ist – unter den richtigen Voraussetzungen – auch für kleine und mittelständische Unternehmen von Vorteil. Anders als große Konzerne benötigen sie aufgrund ihrer eingeschränkten Ressourcen allerdings einen guten Plan. Ein exklusiver Beitrag von Franz Kögl, Vorstand bei IntraFind. […]

News

Die große Cloud-Lüge

Die moderne IT-Welt wird von der scheinbar grenzenlosen Leistungsfähigkeit der Cloud begeistert – einem Versprechen von Skalierbarkeit, Flexibilität und ständiger Innovation. Hinter diesem verführerischen Image verbergen sich jedoch erhebliche wirtschaftliche Risiken, die den Fortschritt in eine teure Falle verwandeln können. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*