Vortrainierte LLMs für die Open-Source-Community

Alibaba Cloud veröffentlicht sein 7-Milliarden-Parameter-LLM-Modell Qwen-7B sowie die Chat-optimierte Version Qwen-7B-Chat als Open Source. [...]

Foto: alibabacloud.com

Im April 2023 hat Alibaba Cloud sein neuestes generatives KI-Modell „Tongyi Qianwen“ vorgestellt. Nun öffnet das Unternehmen den Quellcode von zwei Large Language Models (LLM), Qwen-7B und die Chat-optimierte Version Qwen-7B-Chat, mit denen Tongyi Qianwen trainiert wurde, für die Open-Source-Gemeinschaft.

In dem Bestreben, KI-Technologien zu demokratisieren, werden der Code, die Modellgewichte und die Dokumentation der Modelle für Akademiker, Forscher und kommerzielle Einrichtungen weltweit frei zugänglich sein. Für die kommerzielle Nutzung sollen die Modelle für Unternehmen mit weniger als 100 Millionen monatlich aktiven Nutzern kostenlos zur Verfügung stehen. Programme mit mehr Nutzern können eine Lizenz bei Alibaba Cloud beantragen.

Beide LLMs können laut Alibaba Cloud in Cloud- und On-Premises-Infrastrukturen eingesetzt werden. Dies ermöglicht den Anwendern eine Feinabstimmung der Modelle und das effektive und kosteneffiziente Erstellen eigener generativer KI-Fähigkeiten.

So charakterisiert Alibaba Cloud die beiden jetzt freigegebenen LLMs:

Qwen-7B wurde mit über 2 Billionen Token trainiert, darunter chinesische, englische und andere mehrsprachige Materialien, Code und Mathematik, die allgemeine und berufliche Bereiche abdecken. Seine Kontextlänge erreicht 8K. Beim Training wurde das Qwen-7B-Chat-Modell mit menschlichen Anweisungen abgeglichen.

Sowohl das Qwen-7B- als auch das Qwen-7B-Chat-Modell können in Cloud- und On-Premises-Infrastrukturen eingesetzt werden. Dies ermöglicht den Anwendern eine Feinabstimmung der Modelle und die effektive und kosteneffiziente Erstellung eigener hochwertiger generativer Modelle.

Das vortrainierte Qwen-7B-Modell zeichnete sich im Massive Multitask Language Understanding (MMLU)-Benchmark aus und erreichte einen beachtlichen Wert von 56,7, womit es andere wichtige vortrainierte Open-Source-Modelle mit ähnlichem Umfang oder sogar einige größere Modelle übertraf.

Bei diesem Benchmark wird die Multitasking-Genauigkeit eines Textmodells bei 57 verschiedenen Aufgaben bewertet, die Bereiche wie elementare Mathematik, Informatik und Recht umfassen. Darüber hinaus erreichte Qwen-7B die höchste Punktzahl unter Modellen mit gleichwertigen Parametern in der Rangliste von C-Eval, einer umfassenden chinesischen Evaluierungssuite für grundlegende Modelle.

Sie deckt 52 Fächer in vier großen Fachbereichen ab, darunter Geisteswissenschaften, Sozialwissenschaften, MINT und andere. Darüber hinaus erreichte Qwen-7B herausragende Leistungen bei Benchmarks in den Bereichen Mathematik und Codegenerierung, wie GSM8K und HumanEval.

Weitere Informationen zu Qwen-7B und Qwen-7B-Chat finden Sie auf den Seiten von ModelScopeHugging Face und GitHub.

*Bernhard Lauer beschäftigt sich seit Jahrzehnten mit IT-Themen und bereitet diese als Autor und Redakteur auf – unter anderem für die dotnetpro. Programmieren gelernt hat er mit dem C64 und Basic. Er hat über die Anfänge von Java, JavaScript, HTML und .NET berichtet und sich zuletzt mit Python beschäftigt, nicht zuletzt deshalb, weil es ohne Semikolons auskommt ;-).


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*