22. Dezember 2024

Warum die KI am liebsten Englisch spricht

Ob Sprachsteuerung, Chatbot oder Übersetzungsprogramme: Am besten funktionieren diese Anwendungen auf Englisch. Warum das so ist und ob sich das in Zukunft ändern wird, erklärt der Saarbrücker Computerlinguistik-Professor Dietrich Klakow. [...]

UniSaarland_Prof_Klakow_w493_h312 — Foto: Uni Saarland, (c) Iris Maurer

Als deutscher Muttersprachler ist man noch relativ gut dran, sagt Dietrich Klakow, Professor für „Spoken Language Systems“ an der Universität des Saarlandes. Denn die meisten IT-Sprachanwendungen funktionierten auch auf Deutsch recht gut. „Aber es stimmt, viele Systeme im Bereich der Sprachverarbeitung arbeiten nach wie vor auf Englisch am besten“, bestätigt der Professor, der am Saarland Informatics Campus forscht.

Ausschlaggebend dafür seien vor allem zwei Gründe: Zum einen basieren die meisten Anwendungen der computergestützten Sprachverarbeitung auf dem Maschinellen Lernen, einem Teilgebiet der Künstlichen Intelligenz.

„Beim Maschinellen Lernen sagt nicht ein Programmierer dem Algorithmus ganz genau, was er zu tun hat, sondern trainiert ihn mit massenhaft Daten, aus denen der Algorithmus selbstständig lernen kann“, erklärt Dietrich Klakow.

Und genau hier liegt der erste Grund: Englisch ist die meistgesprochene Sprache der Welt, somit sind auch die meisten verfügbaren Trainingsdaten auf Englisch. „Zudem ist das Englische grammatikalisch vergleichsweise einfach gestrickt, weshalb Computer gut damit zurechtkommen“, so Klakow.

Der zweite Grund seien die Forscher selbst: „Die Wissenschaft ist ein internationales Arbeitsfeld, deshalb ist die Arbeitssprache in der Regel Englisch – auch in der Informatik. Wenn man also etwas Neues erforscht oder entwickelt, so tut man dies auf eine Weise, die für die Kolleginnen und Kollegen gut nachvollziehbar ist. Deshalb arbeiten und publizieren die meisten Forscherinnen und Forscher auf Englisch“, sagt Klakow.

Dies führe wiederum dazu, dass viele Anwendungen zunächst auf Englisch entwickelt würden – das erste maschinell übersetzte Sprachenpaar war Englisch-Französisch. Die erste synthetisch erzeugte Stimme war eine Software, die englische Zeitungsartikel vorgelesen hat.

„Die meisten Anwendungen haben einen mehrjährigen Vorsprung auf Englisch. Und die großen europäischen Sprachen werden in der Regel zuerst nachgezogen“, erläutert der Professor.

Was aber ist mit kleineren Sprachen, die nur wenige Sprecher haben? „Mit Abstand die meisten Sprachen der Welt werden gar nicht unterstützt. Es gibt rund 7000 Sprachen, von denen wiederum nur rund 400 mehr als eine Million Sprecher haben – und selbst diese 400 sind nicht alle umfassend genug erforscht, um in Anwendungen mit natürlicher Sprache verwendet zu werden“, sagt Klakow.

Der „Google Übersetzer“, der einen guten ersten Einblick in die computerlinguistisch erforschten Sprachen geben kann, unterstützt Stand Februar 2023 insgesamt 133 Sprachen auf verschiedenen Niveaustufen.

Ein wesentlich schwerwiegenderes Problem als kleine Sprachen, die nicht ausreichend computerlinguistisch erforscht werden, sind sehr weit verbreitete Sprachen, die kaum oder gar nicht unterstützt werden.

Denn hier gehe es ganz schnell um global-gesellschaftlich relevante Fragestellungen der digitalen Teilhabe, sagt Dietrich Klakow. „Viele afrikanische Sprachen zum Beispiel, die ohne weiteres zehn bis 50 Millionen Muttersprachler haben, können kaum oder nur sehr schlecht von Computern verarbeitet werden“, sagt der Professor.

Gemeinsam mit seinen Doktoranden Jesujoba Oluwadara Alabi, David Ifeoluwa Adelani und Marius Mosbach hat Dietrich Klakow deshalb eine Methode entwickelt, um bereits bestehende Sprachmodelle speichereffizient und möglichst passend auf die 17 am weitest verbreiteten afrikanischen Sprachen einzustellen.

Für die Arbeit wurden er und seine Kollegen im vergangenen Oktober mit einem „Best Paper Award“ der „International Conference on Computational Linguistics“, einer der führenden Fachkonferenzen der Computerlinguistik, ausgezeichnet.

Es wird also weiter daran gearbeitet, den Sprachhorizont der Maschinen zu erweitern. Auf die Frage, wie sich diese Sprachfähigkeiten in Zukunft entwickeln könnten, sagt Klakow: „Durch effizientere Machine-Learning-Modelle, die weniger Trainingsdaten benötigen, oder durch bessere Methoden, um Trainingsdaten künstlich erzeugen zu können, werden zukünftig sicherlich noch mehr Sprachen in ihrer maschinellen Verarbeitung auf ein ‚produktreifes‘ Niveau gehoben werden. Ich schätze, in zehn bis 15 Jahren könnten die 400 verbreitetsten Sprachen allesamt dieses Level erreicht haben.“

Dass jemals alle Sprachen der Welt gleich gut funktionieren werden, hält er hingegen für ausgeschlossen: „Es wird niemals genügend Trainingsdaten geben, um beispielsweise ein ‚Zulu-ChatGPT‘ zu programmieren. In dieser Hinsicht wird das Englische wahrscheinlich immer die Nase vorn haben“, resümiert der Professor.

Publikation: Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, and Dietrich Klakow. 2022. Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning. In Proceedings of the 29th International Conference on Computational Linguistics, pages 4336–4349, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.

Lehrstuhl: https://www.lsv.uni-saarland.de

*Bernhard Lauer beschäftigt sich seit Jahrzehnten mit IT-Themen und bereitet diese als Autor und Redakteur auf – unter anderem für die dotnetpro. Programmieren gelernt hat er mit dem C64 und Basic. Er hat über die Anfänge von Java, JavaScript, HTML und .NET berichtet und sich zuletzt mit Python beschäftigt, nicht zuletzt deshalb, weil es ohne Semikolons auskommt ;-).

Franz Pichler ist Gründer und Geschäftsführer von spusu. (c) spusu

spusu gewinnt 2024 150.000 Neukunden

20. Dezember 2024 pi/cb

Der Mobilfunkanbieter spusu hat 2024 mit einem Zuwachs von 150.000 Neukunden und einem Umsatzplus von 19,4 Prozent ein Rekordjahr hingelegt. […]

Damir Leko, Country General Manager bei Nexi in Österreich (c) Nexi Austria GmbH

E-Commerce in Österreich: Vielfalt beim Bezahlen als Schlüssel zum Erfolg

20. Dezember 2024 pi/cb

Der österreichische Online-Handel verzeichnet einen bemerkenswerten Aufschwung: Die digitalen Ausgaben stiegen 2023 auf über 14 Milliarden Euro. Flexible Zahlungsmethoden und innovative Technologien wie „Tap to Pay“ prägen die Einkaufswelt. […]

v.l.n.r.: Daniela Drakulic, Helene Baumgartner, Nadia Tor, Nicol Weghofer, Marcel Aberle, Tatjana Lulevic-Heyny (c) 42 Vienna

42 Vienna: Top-Experten und Epertinnen beim CorporateMeetsStudents Event

20. Dezember 2024 pi/kdl

Über 150 Teilnehmer und Teilnehmernnen aus Wirtschaft, IT und Bildung kamen zum CorporateMeetsStudents Event am Campus 42 Vienna zusammen. Im Mittelpunkt der Diskussionen stand die zentrale Rolle von Software-Kompetenz nicht nur für das Wirtschaftswachstum, sondern auch für die gesamtgesellschaftliche Entwicklung Österreichs. […]

Digital wie im echten Leben: Ballast abzuwerfen, Räume reinigen und entrümpeln, um sich auf das kommende Jahr vorzubereiten. (c) Pixabay

Aufgeräumt ins neue Jahr: Wie Sie Ihre digitalen Altlasten loswerden

20. Dezember 2024 pi/kdl

Nutzen Sie die die ruhigen Tage rund um den Jahreswechsel, um Ihre Daten zu ordnen, Platz für Neues zu schaffen und Ihren Arbeitsplatz klarer und nachhaltiger zu gestalten. Iphos IT hat folgende Tipps zusammengestellt, wie das digitale Ausfegen mit den richtigen Tools, Techniken und speziellen Enterprise-Search-Lösungen auf Knopfdruck gelingt. […]

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl

„Die Zukunft ist modular, flexibel und KI-gestützt“

20. Dezember 2024 Klaus Lorbeer

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

Richtlinien für sichere KI-Entwicklung

20. Dezember 2024

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

Soundspektakel dank diesen Audio-Geräten

20. Dezember 2024 Daniel Bader *

Kopfhörer, Lautsprecher und Soundbars sind die drei wichtigsten Audioklassen – alle mit ganz individuellen Besonderheiten. Dieser Audio-Guide zeigt, welches Gerät sich für wen lohnt und was es beim Kauf zu beachten gilt. […]

Kosteneffizienz in der Cloud: So vermeiden Unternehmen unnötige Ausgaben

20. Dezember 2024 Simon Müller *

Cloud Computing bietet unschlagbare Vorteile wie Skalierbarkeit und Flexibilität, bringt jedoch auch Herausforderungen mit sich. Vor allem die Kosteneffizienz in der Cloud wird für Unternehmen immer wichtiger, da die Ausgaben für Cloud-Dienste stetig steigen. […]

Datensilos blockieren Abwehrkräfte von generativer KI