Bei industriellen Anwendungen sprachverarbeitender Verfahren ist manuell kodiertes Wissen auch im Lichte der jüngsten Fortschritte bei maschinellen Lernverfahren oft unverzichtbar. [...]
Maschinellen Lernverfahren wird derzeit in vielen Bereichen moderner Technologien eine hohe Aufmerksamkeit zuteil. Spektakuläre Erfolge wie der Sieg gegen den weltbesten Go-Spieler oder schnelle Fortschritte bei autonomen Fahrzeugen scheinen mancherorts zu der Überzeugung zu führen, dass die Tage aller anderen Ansätze – auch in Bereichen wie der semantischen Analyse von Textdokumenten, mit der wir uns in diesem Text insbesondere befassen werden – gezählt sind.
Traditionell versteht man dabei unter diesen „anderen Ansätzen“ regelbasierte Verfahren, bei denen ein Algorithmus sein Ziel nicht auf der Basis von aus Daten automatisch gelerntem Wissen erreicht, sondern durch Anwendung von expliziten Regeln und lexikalischem Wissen. Wissen das meist manuell von menschlichen Experten kodiert wurde.
Einen kenntnisreichen Blick auf diesen Sachverhalten haben vor einiger Zeit Forscher aus dem Hause IBM geworfen. Unter dem programmatischen Titel „Rule-based Information Extraction is dead! Long live rule-based Information Extraction Systems!“ beobachten die Autoren die sehr unterschiedliche Art und Weise, wie regelbasierte Systeme einerseits und maschinelle Lernverfahren andererseits in den beiden Bereichen akademische Forschung und industrielle Anwendungen gesehen werden.
Während im Untersuchungszeitraum von 2003 bis 2012 rund 75 Prozent der Papiere maßgeblicher wissenschaftlicher Konferenzen zum Thema Informationsextraktion rein lernbasierte Verfahren beschrieben, sind die kommerziellen Werkzeuge von 54 untersuchten Anbietern zum selben Thema zu 67 Prozent rein regelbasiert. Den Grund sehen die Autoren in den unterschiedlichen Erfolgskriterien, die bei der Bewertung wissenschaftlicher Arbeiten im Vergleich zu kommerziellen Projekten angelegt werden.
Ein wichtiges Kriterium, das die Autoren anführen, ist, dass die Ergebnisse der untersuchten Informationsextraktionsverfahren oftmals wiederum Input für dahinterliegende Geschäftsprozesse sind, deren Wert nicht direkt mit den messbaren Parametern Recall und Precision korrelieren muss. Ein anderes Kriterium ist die Nachvollziehbarkeit der Ergebnisse, die bei regelbasierten Systemen meist, bei lernenden Systemen dagegen meist nicht gegeben ist.
Beispiele aus der Praxis
Vor dem Hintergrund der eigenen Erfahrungen zu den Anforderungen von Unternehmenskunden, kann der Autor dieser Zeilen dieser Analyse im Prinzip zustimmen. Einige Überlegungen hierzu seien im Folgenden am Beispiel einer spezifischen Aufgabe vorgestellt: Der Ermittlung von Ähnlichkeiten und semantischer Nähe zwischen Wörtern und Texten.
Wir als Menschen sind oft sehr gut darin, solche Ähnlichkeiten zu erkennen: Spricht ein Text von „Erwerb“ einer Immobilie und ein anderer vom „Kauf“, so hilft uns unser sprachliches Wissen dabei, die beiden Sachverhalte als sehr ähnlich zu erkennen. Computern muss dies dagegen erst aufwändig beigebracht werden. Hier haben die dramatisch angestiegene Verfügbarkeit großer Textmengen sowie Fortschritte in der Effizienz und Qualität von algorithmischen Lernverfahren seit einiger Zeit interessante Ergebnisse geliefert. Algorithmen wie word2vec oder GloVe versuchen, allein auf nicht annotierten Textmengen Ähnlichkeiten zu ermitteln, die sich über bloßen Zeichenkettenvergleich nicht herstellen lassen. So sollen Nutzern, die beispielsweise mit einem Wort wie „car“ in einem Korpus suchen, auch Treffer mit verwandten Termen wie „pickup“ oder „SUV“ angeboten werden. Soweit so gut.
Die Anwendung der genannten Lernverfahren auf reale Textkorpora, wie sie in Firmenprojekten anfallen, zeigt allerdings bald, dass zwar unzweifelhaft vielfach relevante Information ermittelt wird, diese jedoch selten der Qualität von validierten Thesauri nahekommt.
Diese und ähnliche Beispiele scheinen nahezulegen, dass Lernverfahren, wie die oben erwähnten, durchaus ihren Mehrwert beisteuern können, dort wo validiertes, strukturiertes Wissen nicht verfügbar und aus Ressourcengründen auch nicht erstellt werden kann. In der Regel allerdings können Ergebnisse aus automatischen Termvergleichen kaum unbesehen zum Aufbau von Referenzwortschätzen herangezogen werden – ein menschlicher Validierungsschritt ist vonnöten, um die Vorschläge der Algorithmen zu sichten.
Für die Arbeit mit Unternehmenskunden gilt daher: Lernverfahren bergen großes Potenzial für eine ganze Reihe von Textanalyseaufgaben: Bei Dokumentenkategorisierung und Entitätenerkennung zum Beispiel sind Modelle, die mit automatischen Lernverfahren trainiert werden, oftmals das Mittel der Wahl. Für lexikalisches Wissen, wie in den oben beschriebenen Beispielen jedoch hat es sich als vorteilhaft herausgestellt, sicherzustellen, dass dieses Wissen bereits in validierter und strukturierter Form vorliegt, anstatt darauf zu bauen, dass es sich in der geforderten Qualität und im geforderten Umfang lernen ließe. Beispielsweise wie die Information, dass „erwerben“, „kaufen“, „erstehen“ und „zulegen“ Synonyme sind, die sehr ähnliche Sachverhalte ausdrücken können.
In der Praxis lassen sich solche Informationen oft nicht mit der gebotenen Genauigkeit aus den im jeweiligen Projekt verfügbaren Daten extrahieren. Das beginnt damit, dass Kunden auch heute im Zeitalter von Big Data oftmals keineswegs stets viele Giga- oder gar Petabyte an Daten zu analysieren haben und Antworten auch für Szenarien erforderlich sind, in denen lediglich einige zehntausend Dokumente bearbeitet werden müssen. In derartigen Korpora von moderaterer Größe jedoch kann schlicht nicht mehr davon ausgegangen werden, dass die Wörter, die beispielsweise als synonym zueinander zu erkennen wären, in ausreichender Zahl vertreten sind. word2vec und ähnliche Ansätze kommen daher alleine aus diesem Grund in der Praxis oft an ihre Grenzen.
Als Beispiel betrachten wir die Frage, mit den denkbaren Synonymen zum Wort „Blinker“ umgegangen werden sollte. Versuchte man, diese Information automatisch aus Textdaten zu ermitteln, so zeigt ein Blick auf die Häufigkeitsverteilung, dass Lernverfahren hier kaum die Möglichkeit haben, ausreichend Kontextinformationen über die selteneren aber völlig validen Synonyme einzusammeln.
Umgekehrt gelten für die automatisch ermittelten Begriffe, dass sich rasch Vorschläge in die Listen schleichen, die zwar auf die eine oder andere Art semantisch nahe am Ursprungsbegriff liegen, aber in einem kontrollierten Wortschatz nicht direkt übernommen werden können: Eine Anwendung von Word2Vec auf Automobil-Daten schlägt als nächste Verwandte zu „car“ die Begriffe „vehicle, cars, SUV, minivan, truck, Car, Ford Focus, Honda Civic, Jeep, pickup truck, Toyota Camry, scooter“ vor. Die Liste wurde bei Begriff Nummer 13 gekappt. Damit werden also Unterbegriffe („minivan, truck“), Instanzen („Honda Civic“) sowie weiter entfernte Begriffe („scooter“) vorgeschlagen, die vor einer Nutzung für konkrete Aufgaben sicher aufwändig manuell kuriert und korrigiert werden müssten.
Experten werden nach wie vor gebraucht
Obwohl die in diesem Text beschriebenen Beobachtungen eher anekdotischen statt systematisch wissenschaftlichen Charakter haben so geben sie doch die Erfahrungen aus zahlreichen kommerziellen Projekten rund um den Einsatz von sprachverarbeitenden Lösungen wieder. Während maschinelle Lernverfahren in vielen Bereichen eindrucksvolle Ergebnisse zeigen, spricht wenig dafür, dass sie in der nächsten Zukunft die Notwendigkeit von manuell kodiertem Wissen in Form von Regeln und lexikalischem Wissen vollständig verdrängen werden.
* Stefan Geißler ist Geschäftsführer der Expert System Deutschland GmbH.
Be the first to comment