xLSTM – KI-Technik mit enormem Potenzial

Univ.-Prof. Sepp Hochreiter, Leiter des Instituts für Machine Learning an der JKU Linz, ist ein Pionier der künstlichen Intelligenz. Seine in den 90er-Jahren entwickelte LSTM-Technik war über Jahrzehnte eine Erfolgsgeschichte des maschinellen Lernens. Jetzt arbeitet er am technischen Nachfolger xLSTM und sprach mit ITWelt.at über die Technik und mögliche Anwendungsszenarien. [...]

KI-Forscher Sepp Hochreiter ist Leiter des Instituts für Machine Learning an der Johannes-Kepler-Universität Linz. (c) JKU Linz
KI-Forscher Sepp Hochreiter ist Leiter des Instituts für Machine Learning an der Johannes-Kepler-Universität Linz. (c) JKU Linz

Woran forschen Sie gerade?

Ich arbeite an der Weiterentwicklung des xLSTM-Modells, das auf meinem LSTM-Modell basiert. Unsere Firma NXAI wurde gegründet, um dieses Modell zu entwickeln und zu finanzieren. Das xLSTM ist in der Anwendung schneller als aktuelle Modelle, da es linear in der Kontextlänge skaliert wohingegen die aktuelle Technologie, Transformer, quadratisch skaliert. Wir haben bereits 10 Millionen Euro an Rechenleistung für Modelle bis zu 1,3 Milliarden Parametern investiert und konnten zeigen, dass xLSTM besser ist als bestehende Technologien wie Transformer und Mamba. Nun haben wir auch Modelle mit sieben Milliarden Parametern trainiert und es zeigt sich, dass wir mit Transformer und Mamba mithalten können, aber viel schneller in der Inferenz, also der Anwendung sind.  

Woran arbeiten Sie noch bei NXAI?

Wir konstruieren KI-Modelle, die auf numerischen und physikalischen Simulationen basieren. Die KI-Modelle erkennen Makrostrukturen und modellieren diese, was die Berechnungen erheblich beschleunigt. Beispielsweise können wir Simulationen, die normalerweise sieben bis acht Tage dauern würden, in zwei Sekunden durchführen. 

Sind Sie bereits in der Anwendung Ihrer Forschung?

Ja, wir nutzen das Modell für Simulationen in verschiedenen Branchen, wie Maschinenbau und digital Twins. Durch die schnelle Berechnung können wir Prozesse optimieren und Probleme frühzeitig erkennen, was beispielsweise besonders in der Kernfusion wichtig ist. Unsere Kunden sind oft überrascht von den Möglichkeiten, die wir mit ihren Daten demonstrieren können.

Welche Infrastruktur wird benötigt, um diese Modelle zu betreiben? 

Die bestehenden numerischen Simulationen sind langsam, liefern aber die notwendigen Daten. Wir benötigen Experten aus den jeweiligen Domänen, um die Simulationen sinnvoll zu gestalten. Mit diesen Daten können wir dann unsere Modelle trainieren. 

Dabei ist es wichtig, das Erlernte zu bewahren und kontinuierlich zu verbessern. 

Sind synthetische Daten für Sie relevant? 

Ja, synthetische Daten sind sogar wichtiger für uns, da es oft nicht genug echte Daten gibt. Gute Simulationen liefern ausreichend Daten, um große Modelle zu trainieren, auch wenn sie nicht perfekt die Realität abbilden. 

Wie steht es um die Sicherheit Ihrer Systeme? Ist Security bereits integriert oder müssen die Unternehmen dafür sorgen?

Sicherheit ist nicht integriert, das überlassen wir den Experten. Wir könnten jedoch, wenn es gewünscht wird, Modelle entwickeln, die Domainshifts erkennen und darauf reagieren. Unser Fokus liegt gegenwärtig jedoch auf der Verbesserung der Modelle selbst. 

Können Ihre Modelle auch on the edge, also auf Endgeräten eingesetzt werden? 

Ja, das xLSTM ist perfekt für die Inferenz auf Endgeräten geeignet. Es benötigt weniger FLOPs, weniger Speicher und kann an die Ressourcen des Endgeräts angepasst werden. Das macht es ideal für Embedded Systeme und Anwendungen in der Robotik, autonome Produktionssystem oder selbstfahrenden Autos, wo schnelle Reaktionen erforderlich sind. 

Was halten Sie vom EU AI Act? 

Der AI Act hat gute Ideen wie den risikobasierte Ansatz, aber auch Schwächen, wobei hier vor allem die schlechte Definition von KI zu nennen ist. Hier gilt nach wie vor, dass jede mathematische Funktion künstliche Intelligenz ist. Demnach wäre y=2*x eine KI. Das ist absurd.

Es ist wichtig, dass alle Marktteilnehmer gleich behandelt werden. Es besteht die Gefahr, dass europäische Unternehmen gegenüber den außereuropäischen Marktteilnehmern aus den USA oder China benachteiligt werden, wenn der Act nicht sorgfältig umgesetzt wird. Die Rechtsunsicherheit ist ein Hemmnis.

Wie gehen Sie mit Halluzinationen in Sprachmodellen um? 

Halluzinationen sind ein bekanntes Problem bei autoregressiven LLMs wie ChatGPT. Diese Systeme werden darauf trainiert, das jeweils nächste Wort vorherzusagen. Egal, ob das System es kann oder nicht, es wird vorhergesagt. Wir arbeiten daran, Unsicherheiten zu erkennen und zu markieren. Eine Möglichkeit ist die Verwendung von Retrieval Augmented Generation, um faktenbasierte Antworten zu liefern. Aber ja, es wird immer Halluzinationen geben, aber wir können sie minimieren und kennzeichnen. 

Wie sehen Sie die Zukunft der KI und deren Einfluss auf die Gesellschaft? 

KI hat das Potenzial, viele Bereiche zu revolutionieren. Wovor ich Angst habe, das ist die Verbreitung von Fake News. Deswegen ist es wichtig, dass wir verantwortungsvoll mit künstlicher Intelligenz umgehen, sie dokumentieren und überwachen und derart sicherstellen, dass sie zum Wohl der Gesellschaft eingesetzt wird.

Sepp Hochreiter und die Entwicklung von xLSTM 

Sepp Hochreiter ist ein Pionier der künstlichen Intelligenz forscht und lehrt an der Johannes-Kepler-Universität Linz, wo er Leiter des Instituts für Machine Learning ist. Die xLSTM-Technologie entstand in Zusammenarbeit mit NXAI und der Johannes Kepler Universität Linz. Die Absicht hinter xLSTM ist einen neuen Standard für große Sprachmodelle (LLMs) zu entwickeln, der eine deutlich verbesserte Effizienz und Leistung bei der Textverarbeitung bietet. Die Technik setzt auf seine Long-Short-Term-Memory-Technologie (LSTM) aus dem Jahr 1991 auf, die den Grundstein für die moderne KI legte und bis 2017 die vorherrschende Methode in der Sprachverarbeitung und Textanalyse war. xLSTM ist laut Hochreiter nicht nur eine revolutionäre Weiterentwicklung, sondern auch ein europäisches LLM, ein vielleicht nicht unwesentlicher Punkt, in  einer unsicher gewordenen politischen Weltlage.

Rück- und Ausblick: Effizienz durch Innovation

Seit den frühen 1990er Jahren hat die Long-Short-Term-Memory-Idee von konstantem Fehlerkarussell und Gating zu zahlreichen Erfolgsgeschichten beigetragen. LSTM hat sich als die leistungsfähigste rekurrente neuronale Netzwerkarchitektur herauskristallisiert und ihre Effizienz bei zahlreichen sequenzbezogenen Aufgaben bewiesen. Sie hat wesentlich zum Erfolg im Bereich des Deep Learning beigetragen, insbesondere bei den ersten Large Language Models (LLMs). Mit dem Aufkommen der von Google entwickelten Transformer-Technologie, eine Deep-Learning-Architektur, die die Basis des generativen vortrainierten Transformers (GPT – general pre-trained Transformer) bildet, schien der LSTM-Ansatz überholt zu sein. Transformer wurde zur treibenden Kraft heutiger LLMs. Mit xLSTM soll das von Sepp Hochreiter erworbene Knowhow zukunftsfit gemacht werden. Hochreiter und sein Team stellten sich die Frage: Wie weit kommt man bei der Sprachmodellierung, wenn man LSTM auf Milliarden von Parametern skaliert und dabei die neuesten Techniken moderner LLMs nutzt, aber die bekannten Einschränkungen von LSTM abmildert? Zunächst führte man exponentielles Gating mit geeigneten Normalisierungs- und Stabilisierungstechniken ein. Danach modifizierte man die LSTM-Speicherstruktur und erhält: (1) sLSTM mit einem skalaren Speicher, einer skalaren Aktualisierung und einer neuen Speichermischung, (2) mLSTM, das vollständig parallelisierbar ist, mit einem Matrixspeicher und einer Kovarianzaktualisierungsregel. Die Integration dieser LSTM-Erweiterungen in Residualblock-Backbones ergibt xLSTM-Blöcke, die dann in xLSTM-Architekturen residuell gestapelt werden. Exponentielles Gating und modifizierte Speicherstrukturen steigern die xLSTM-Fähigkeiten, so dass sie im Vergleich zu modernen Transformatoren und Zustandsraummodellen sowohl bei der Leistung als auch bei der Skalierung günstig abschneiden.

Die ersten Ergebnisse zeigen, dass xLSTM effizienter arbeitet, weniger Rechenleistung benötigt und aktuelle LLMs in Geschwindigkeit und Genauigkeit übertrifft. Insbesondere zeigt xLSTM ein besseres Verständnis der Textsemantik, wodurch es in der Lage ist, komplexere Texte zu verstehen und zu generieren. 

„xLSTM stellt mehr als nur einen technologischen Durchbruch dar«, ist Hochreiter überzeugt, »es ist ein Schritt in Richtung einer Zukunft, in der die Effizienz, die Genauigkeit und das Verständnis der Sprachverarbeitung den menschlichen Fähigkeiten entsprechen und diese sogar übertreffen können.“

Weitere Informationen finden interessierte auf der Website von NXAI: 

www.nx-ai.com/en/xlstm


Mehr Artikel

News

Oracle Red Bull Racing setzt verstärkt auf Oracle Cloud und KI

Für die Formel-1-Saison 2025 wird Oracle Red Bull Racing die neuen OCI Compute A2 und OCI Compute A4 Flex Shapes nutzen, um die Simulationsgeschwindigkeit um 10 Prozent zu erhöhen. Dadurch kann das Team jede Woche noch mehr Simulationen durchführen, um eine größere Vielfalt an Szenarien zu testen und die Entscheidungen am Renntag zu verbessern. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*