Capisci?

Die Erkennung von natürlicher Sprache und automatische Übersetzungen gehören zu den wichtigsten Bereichen der KI-Forschung. Wie weit können Userinnen und User sich auf die Ergebnisse aktueller Systeme wie Google Translate verlassen? [...]

Dr. Jaroslaw Kutylowski ist Mitgründer und CEO von DeepL, dessen Übersetzer eine Kombination aus dem Online-Wörterbuch Linguee und neuronalen Netzen ist. (c) DeepL

Laut der Studie der Online-Sprachlernplattform Preply ist Google Translate mit über 338 Millionen Suchanfragen pro Monat die weltweit beliebteste Übersetzungssoftware. Doch wie gut schneidet die Lösung ab? Um diese Frage zu beantworten, hat Preply zusammen mit professionellen zweisprachigen Sprachlehrern ein Experiment durchgeführt – und zwar für die Sprachen Englisch, Italienisch, Deutsch und Spanisch.

Die Untersuchungen von Preply zeigen, dass Italienisch mit einer Genauigkeit von 94 Prozent die größte Herausforderung für Google bei der Übersetzung darstellt. Im Durchschnitt kommen auf zehn ins Italienische übersetzte Wörter 0,59 Fehler und eine niedrige Bewertung der Lesbarkeit von 4,5 von 100, was auf eine schlechte Satzstruktur zurückzuführen ist.

Deutsch folgte mit einer Genauigkeit von 95 Prozent, da im Durchschnitt 0,54 Übersetzungsfehler pro 10 Wörter auftreten. Ähnlich wie viele europäische Sprachen erfordert Deutsch ein ausgezeichnetes Verständnis des Kontexts, in dem es gesprochen wird, welcher vom Google-Algorithmus teilweise nicht gut genug verstanden wird. Spanisch war für Google die am zweitleichtesten zu übersetzende Sprache mit einer hohen Trefferquote von 97 Prozent. Es traten nur 0,34 Fehler pro 10 übersetzten Wörtern auf und die Übersetzungen wurden mit einer beeindruckenden Lesbarkeitsbewertung von 7,4 von 10 bewertet.

Die Studie fand auch heraus, dass Google Translate bei der Übersetzung von Inhalten aus anderen Sprachen ins Englische besser abschneidet: Nur 0,28 von 10 übersetzten Wörtern sind falsch. Trotz des Fehlermangels schnitt die durchschnittliche Lesbarkeit mit nur 5,74 von 10 Punkten in Bezug auf Genauigkeit und Klarheit nicht so gut ab.

Dass Google Translate Englisch so gut beherrscht, liege wahrscheinlich daran, dass es die am häufigsten verwendete Sprache im Internet ist. Der Algorithmus von Google habe daher Zugang zu mehr englischen Dokumenten als zu anderen Sprachen und kann aus diesen Inhalten lernen, so die Studie.

Die Untersuchungen von Preply haben außerdem ergeben, dass umgangssprachliche Ausdrücke für Google am schwierigsten zu übersetzen sind (72 Prozent Genauigkeit), gefolgt von geschäftlichen (96 Prozent) und literarischen Texten (94 Prozent). Dies liegt wahrscheinlich daran, dass es für Google Translate als KI-Tool schwierig ist, die einzigartigen menschlichen Nuancen zu verstehen, die erforderlich sind, um die Bedeutung regionalspezifischer Wörter und Sätze in die Zielsprache zu übertragen.

Amy Pritchett, Student Success Manager bei Preply, kommentierte die Ergebnisse der Studie wie folgt: „Google Translate kann eine großartige Plattform für einfache Übersetzungen sein. Wie unsere Studie jedoch zeigt, ist es aufgrund seiner Grenzen als maschinelles Lernwerkzeug nicht immer genau. Dies gilt insbesondere für komplexere Sprachen wie Spanisch und Deutsch.“

DeepL als Alternative

Im Jahr 2007 hatte der ehemalige Google-Mitarbeiter Gereon Frahling die Idee für das Online-Wörterbuch Linguee. Im Unterschied zu vergleichbaren Diensten wie LEO oder dict.cc ist bei Linguee das Wörterbuch mit einer Suchmaschine kombiniert, die den Zugriff auf große Mengen zweisprachiger, übersetzter Satzpaare in einer Datenbank ermöglicht, die größtenteils aus dem Internet stammen.

Im Jahr 2016 begann innerhalb der Linguee GmbH ein Team rund um Jaroslaw Kutylowski, die Datensätze der Übersetzungsmaschine mit neuronalen Netzen zu kombinieren. Das Ergebnis war der Online-Übersetzer DeepL, der zunächst ausschließlich kostenfreie Translationen zwischen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Polnisch und Niederländisch lieferte. 2018 kam die kostenpflichtige Version „DeepL Pro“ hinzu. Diese Version bietet einen API-Zugang, die Integration in Übersetzungssoftware und einen optimierten Web-Übersetzer.

Und wie schneidet DeepL im Vergleich ab? Dazu hat das Unternehmen, das unter der Leitung von Jaroslaw Kutylowski steht, einen Blindtest ins Leben gerufen: 119 längere Abschnitte aus unterschiedlichen Bereichen wurden mit dem DeepL-Übersetzer und Konkurrenzsystemen wie Google Translate oder Microsoft Translator übersetzt. Professionelle Übersetzer bewerteten dann diese Übersetzungen und wählten die beste aus – ohne Informationen darüber, welches System welche Übersetzung erzeugt hatte. Im Ergebnis wählten die Übersetzer vier Mal häufiger die Ergebnisse von DeepL als die von jedem anderen System. So die Informationen von DeepL. „Wir gehen davon aus, dass Firmen wie Google oder Microsoft natürlich auch sehr gute Daten zum Training der neuronalen Übersetzungsnetze besitzen“, kommentiert Kutylowski. „Wir haben hingegen viele Neuerungen in der Mathematik und Methodik neuronaler Netze erreicht. Für das gesamte Team ist es natürlich ein besonderer Moment, dass diese Verbesserungen nun von Milliarden von Menschen genutzt werden können.“

Die Vision von DeepL sei es, weltweit Sprachbarrieren einzureißen und Kulturen einander näher zu bringen. Dazu plant das Unternehmen die Erweiterung um viele weitere Sprachen und möchte in den nächsten Monaten und Jahren die Übersetzungstechnologie an allen Stellen integrieren, wo Menschen miteinander kommunizieren, Texte lesen, schreiben oder miteinander Geschäfte machen. Diese Vision motiviert auch viele KI-Forscher und Entwickler zu DeepL zu wechseln. Allein im Jahr 2019 hat sich die Zahl der Angestellten des Kölner Unternehmens auf 60 mehr als verdoppelt.

Zwei Beispiele für die sprachliche Erweiterung sind Chinesisch und Japanisch, die 2020 hinzugekommen sind. Eine hohe Genauigkeit und eine natürlich klingende Übersetzung in den beiden Sprachen zu erreichen, erwies sich für die Forscher von DeepL eigenen Angaben zufolge als eine spannende Herausforderung. Aufgrund der Fortschritte, die Anfang 2020 in der Architektur des neuronalen Netzwerks des Unternehmens erzielt wurden, trainierte das Team aus Mathematikern und Computeringenieuren neue Algorithmen an Millionen von übersetzten Texten und optimierte deren Leistung mit Unterstützung chinesischer und japanischer Sprachexperten von DeepL.

Das Ergebnis ist eine Übersetzungs-KI, die mit mehreren tausend chinesischen Zeichen und japanischen Kanji, Hiragana und Katakana vertraut ist, und die den sprachlichen Kontext der Wörter und Sätze erkennen kann. Die Systeme von DeepL erfassen sprachliche Nuancen, um natürlich klingende Übersetzungen zu erstellen, wobei die für ein bestimmtes Fachgebiet relevante Sprache verwendet wird, zum Beispiel juristische oder medizinische Terminologie. Vor kurzem hat DeepL die Sprachen Türkisch und Indonesisch mit ins Programm genommen.

Die Individualisierung der Sprache, etwa in Form eines Fachjargons, hat DeepL ebenfalls im Jahr 2020 in Angriff genommen – und zwar als Glossar. Dadurch kann jeder User und jede Userin die Ergebnisse des DeepL-Übersetzers selbst beeinflussen und festlegen, wie ein bestimmter Ausdruck übersetzt wird. Substantive, Verben, Adjektive, Adverbien und sogar Kombinationen aus mehreren Wörtern lassen sich ins Glossar eingegeben. Der Algorithmus passt die Übersetzungen grammatikalisch und dem Kontext entsprechend an, wobei sichergestellt wird, dass die Übersetzung weiterhin einwandfrei und flüssig ist. „Wir freuen uns sehr, dass wir unseren Nutzern mehr Kontrolle darüber geben können, wie unsere Technologie für sie arbeitet“, so Jaroslaw Kutylowski. „Unser neues Glossar-Feature ist ein spannender Fortschritt, der Menschen mehr Einfluss auf die maschinelle Übersetzung gibt und neue Perspektiven dafür schafft, wie DeepL-Technologie die menschliche Kommunikation fördern kann.“

Erkennung von spontaner Sprache

„Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Fülllaute wie ‚äh‘ oder ‚hm‘ und auch Lacher oder Huster“, erklärt Alex Waibel vom Karlsruher Institut für Technologie (KIT). „Oft werden Worte zudem noch undeutlich ausgesprochen.“ Schon für Menschen sei es manchmal schwer, von einem solchen informellen Dialog eine akkurate Transkription anzufertigen. „Einer KI fiel dies bislang noch schwerer.“

Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben, gilt daher als eine der größten Herausforderungen für die künstliche Intelligenz. Einem Forscherteam um Waibel ist es eigenen Angaben zufolge 2020 gelungen, ein Computersystem zu entwickeln, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme.

Das neue System baut auf einem automatischen Live-Übersetzer auf, der Universitätsvorlesungen aus dem Deutschen oder Englischen überträgt. Die Spracherkennung beruht auf sogenannten Encoder-Decoder-Netzwerken, die die akustischen Laute verarbeiten und zuordnen. „Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel. „Denn Fehler und Verzögerungen bei der Erkennung machen die Übersetzung schnell unverständlich.“

Dieses Programm haben die Forscher weiterentwickelt und dabei auch die Latenzzeit des Systems verringert. Denn gerade bei Echtzeit-Übersetzungen ist es wichtig, den Nachlauf des Programms so klein wie möglich zu halten, ohne dabei die Präzision der Erkennung zu opfern. Um das zu erreichen, kombinierten Waibel und seine Kollegen einen auf der Wahrscheinlichkeit bestimmter Wortkombinationen basieren Ansatz mit zwei weiteren Erkennungsmodulen.

Um die Leistung des Systems zu ermitteln, unterzogen die Forscher es einem standardisierten Benchmark-Test. Bei diesem hört die Spracherkennung Gesprächsausschnitte, die aus einem Pool von rund 2.000 Stunden an Mitschnitten von Telefongesprächen stammen. Aufgabe war es, diese Dialoge zu transkribieren. „Die menschliche Fehlerrate liegt hier bei um die 5,5 Prozent“, berichtet Waibel. „Unser System erreicht nun 5,0 Prozent.“ Damit sei dies das erste Computersystem, das den Menschen beim Erkennen solcher spontan gesprochenen Sprache übertrifft – und dies mit nur minimaler Verzögerung, so die Forscher des Karlsruher Instituts für Technologie.