Neue intelligente Software erkennt fast alles

Fraunhofer-Forscher haben hochkomplexe Engine für Optical Character Recognition trainiert. [...]

Zeichenerkennung: Neues System erkennt alles. (c) IAIS,animaflora/fotolia.de

Forscher des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme (IAIS) haben zusammen mit der CIB software GmbH eine Künstliche Intelligenz entwickelt, die Zeichen mit menschenähnlicher Genauigkeit erkennt. Herzstück ist eine Engine für Optical Character Recognition (OCR).

Mit mehr als 2.000 Fonts sowie eigens erzeugten, schwer erkennbaren Zeichen haben die Forscher die künstlichen neuronalen Netze trainiert. So gelingt es der Technologie, neben gut lesbaren Materialien auch alte Schriften, Fotos mit mangelhafter Belichtung und schlecht erhaltene Dokumente zu entziffern.

Schwer Erkennbares deuten

Selbst Hinweisschilder auf Baustellen oder Plakattexte erkennt die Software laut den Experten problemlos, was ihren Einsatz über die klassische Dokumentenanalyse hinaus in anderen Bereichen ermöglicht, etwa dem Autonomen Fahren oder der Hilfe Sehbehinderter, denen künftig zum Beispiel Texte in ihrer Umgebung vorgelesen werden könnten.

„Eine Vielzahl der kommerziellen Engines ist offenbar primär auf gute Materialien ausgelegt. Hier liegt die Trefferquote bei nahezu perfekten 99 Prozent. Sobald die Qualität des Dokuments abnimmt, verringert sich die Erkennungsrate jedoch dramatisch. Deshalb haben wir uns insbesondere auf schwer erkennbare Dokumente konzentriert und so auf unserer Fraunhofer-Expertise im Maschinellen Lernen aufbauend eine schnelle und robuste Allzweck-OCR-Engine mit menschenähnlicher Genauigkeit geschaffen – auch bei schwierigen Scans“, so IAIS-Projektleiter Iuliu Konya.

Ein Zeichen, 5.000 Variationen

In 27 Monaten haben die Forscher die OCR-Engine trainiert – jedes Zeichen wurde mindestens 5.000 Mal in verschiedenen Variationen zum Training verwendet. Historische und neue Texte, verschiedene Graustufen – dort, wo es an Trainingsdaten mangelte, erzeugten die Forscher zudem selbst synthetische Texte. Nachdem die Software zunächst anhand einzelner annotierter Zeichen trainiert wurde, erkennt sie jetzt innerhalb ganzer Zeilen selbstständig die jeweiligen Buchstaben und Satzzeichen. Binnen kürzester Zeit werden Zeitungsseiten, juristische Dokumente oder medizinische Akten erfasst.


Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*