MODUL University Vienna macht mit neuer Methode Zweideutigkeiten automatisch erkennbar. [...]
Das Team um Arno Scharl, Leiter des Instituts für Neue Medientechnologie an der MODUL University Vienna, befasst sich mit einem bekannten Problem: Die automatische Interpretation von Begriffen, deren Bedeutung vom Kontext des Begriffes verändert wird. So lässt z. B. das Wort „Beschwerde“ bei einer Hotelbewertung im Internet schon Böses ahnen. Anders ist das aber, wenn es lautet: „Meine einzige Beschwerde wäre …“. Ein konstruktiver Kritikpunkt ergänzt hier eine positive Beurteilung. Dazu Scharl: „Einfache Systeme zur Bestimmung von Sentiment erkennen einen Wandel der sogenannten Polarität vom Negativen ins Positive nicht.“
Zentraler Aspekt der nun veröffentlichten Methode ist die Erstellung sogenannter „Contextualized Sentiment Lexicons“. Diese Datenbanken verbinden Begriffe, die Stimmungen ausdrücken und in ihrer Polarität gedreht werden können, mit solchen, deren Polarität konstant ist. Zum Erstellen dieser Lexika werden zunächst doppeldeutige Begriffe identifiziert. Dazu greift die Lösung auf Texte zurück, deren Stimmungen zuvor schon als positiv oder negativ kategorisiert wurden. Dann werden in diesen Texten die Häufigkeiten jener Begriffen erfasst, die Stimmungen ausdrücken können. Begriffe, die in positiven und negativen Texten annähernd gleich häufig auftreten, erhalten die Kategorie „doppeldeutig“.
Der zweite Schritt der Erstellung des „Contextualized Sentiment Lexicons“ identifiziert die Häufigkeit von Wörtern, die gemeinsam mit dem jeweiligen doppeldeutigen Begriff vorkommen – wobei das System differenziert, ob dies in einem positiven oder negativen Kontext geschieht. Kommt also z. B. der Begriff „Beschwerde“ in positiven Texten häufig in Zusammenhang mit „einzige“ vor, so wird dieser Zusammenhang gespeichert. Bei der Analyse eines unbekannten Textes erkennt die Methode, dass der Begriff in diesem Kontext positiv gemeint ist. „Alle doppeldeutigen Begriffe eines Textes werden so mit einem Wert versehen, der Auskunft über die Polarität und die Stärke der ausgedrückten Stimmung gibt“, erläutert Scharl. „Die Werte doppeldeutiger Begriffe eines Textes werden mit vergleichbaren Werten eindeutiger Begriffe aufsummiert. Diese Summe reflektiert die Stimmung des Gesamtdokuments.“
Ein wesentlicher Vorteil der neuen Methode ist auch, dass sie unabhängig von der Art des Textes funktioniert. Vergleichbare existierende Systeme werden z. B. für Filmreviews optimiert und scheitern dann bei der Analyse von z. B. Produktbewertungen. Die an der MODUL University Vienna entwickelte Methode analysiert jedoch unterschiedlichste Textarten, um Gemeinsamkeiten zu finden, die allgemein anwendbar sind. Gerade dieser Vorteil ist auch auf umfangreiche Technologien zurückzuführen, die an dem österreichischen Forschungs- und Lehrinstitut in den letzten Jahren entwickelt und international eingesetzt wurden. (pi/su)
Be the first to comment