Die Modul University betreibt seit Jahren Grundlagenforschung im Bereich Big Data und vermarktet die dabei entstandenen Technologien und Erkenntnisse über das Spinoff webLyzard auch kommerziell. Arno Scharl, Leiter des Department of New Media Technology an der Modul University Vienna und Managing Director von webLyzard, im COMPUTERWELT-Interview. [...]
Die Modul University Vienna bzw. das Spinoff webLyzard gehören weltweit zu den Vorreitern, wenn es um die automatisierte Analyse von Big Data aus dem Internet geht. Der Schwerpunkt liegt dabei auf Tools, mit denen sich analysieren lässt, wie Organisationen, Produkte oder Themen wahrgenommen werden. Im COMPUTERWELT-Interview erklärt Arno Scharl, Leiter des Department of New Media Technology an der Modul University Vienna und Managing Director von webLyzard, welche Herausforderungen die Verknüpfung von unstrukturierten und strukturierten Inhalten mit sich bringt.
Mit welchen Themen beschäftigen Sie sich derzeit?
Arno Scharl: Zum Beispiel mit dem Thema Klimawandel. Wir betreiben ein öffentlich zugängliches Portal namens Media Watch on Climate Change, wo wir Online-Inhalte aus verschiedensten Quellen wie Nachrichten, Sozialen Medien oder Fortune-1000-Unternehmen aggregieren und visualisieren.
Darüber hinaus machen wir für die US-Klimabehörde NOAA Brand Reputation Monitoring, also wie die Behörde wahrgenommen wird. Zudem haben wir für die NOAA auch an einer Plattform namens Climate Resilience Toolkit gearbeitet, die im Rahmen von Obamas Climate Action Plan ins Leben gerufen wurde und die Interessensgruppen und Bürgern vermitteln soll, wie sie dem Klimawandel begegnen können. Unsere Aufgabe war dabei, eine Suchmaschine zu bauen, mit der Klima-relevante Inhalte von 13 US-Regierungsbehörden aggregiert und über eine öffentliche Suchmaschine dargestellt werden können.
Geht es dabei ausschließlich um Internet-Inhalte?
In den geschilderten Projekten verarbeiten wir hauptsächlich öffentliche Inhalte, die es auf Websites oder Sozialen Plattformen gibt. Es geht uns aber nicht darum, Benutzerprofile anzulegen und möglichst viel über Benutzer zu erfahren. Es geht darum, zu Themen, Produkten oder Organisationen die Meinung zu erfassen, aber nicht darum, über eine bestimmte Person Daten anzusammeln. Das heißt, von wem die Meinung kommt, ist zweitrangig, wichtig ist, ein Online-Stimmungsbild zu erhalten.
Konzentriert ihr euch dabei auf englische Inhalte oder ist die Sprache egal?
Unsere Plattform ist multilingual, wobei der Großteil unserer Architektur eigentlich komplett sprachunabhängig ist. Eine der wenigen Ausnahmen ist die Sentiment-Bestimmung, also das Erkennen, ob Inhalte positiv oder negativ sind. Das ist natürlich sprachabhängig. Da haben wir Deutsch, Englisch, Französisch und auch Tschechisch in produktiven Systemen im Einsatz. Weitere Sprachen sind in Arbeit und lassen sich relativ kurzfristig je nach Bedarf zuschalten.
Wie sieht das Big-Data-Interesse in Österreich aus?
In Österreich haben wir hauptsächlich Brand-Reputation-Monitoring-Projekte mit kommerziellen Kunden. Aber auch in der öffentlichen Verwaltung gibt es durchaus gute Ansätze. Was Open Government Data betrifft, kann man ja Österreich durchaus eine Vorreiterrolle nachsagen, da hier bereits sehr viele Informationsressourcen zur Verfügung gestellt werden. Das ist ein ganz wichtiger Trend, weil durch gezielte Analyse dieser Informationen oder durch Einbindung dieser Daten in eigene Applikationen sehr viel Nutzen entstehen kann. Das Bereitstellen der Daten heißt aber noch nicht automatisch, dass man damit auch etwas Sinnvolles macht. Es fehlt zum Teil noch an konkreten Einsatzszenarien. Big Data ist ein weites Feld und wir bemühen uns, mit unseren Forschungsprojekten aktiv neue Möglichkeiten aufzuzeigen.
Welche Möglichkeiten?
Wir arbeiten gerade intensiv an der Verknüpfung von strukturierten und unstrukturierten Daten. Beim Thema Klimawandel zum Beispiel stehen zahlreiche Umweltindikatoren wie etwa Emissionsdaten zur Verfügung. Indem ich nun solche Indikatoren mit Inhalten aus Sozialen Medien verknüpfe, bekomme ich ein viel ganzheitlicheres Bild und daher arbeiten wir daran, solche Verknüpfungen darzustellen. Denn davon, dass in irgendeinem Datenfriedhof Gigabyte an Emissionsdaten abgespeichert sind, hat niemand etwas. Diese Daten muss ich in Kontext setzen.
Vor welchen Herausforderungen stehen Sie bei der Verknüpfung von strukturierten und unstrukturierten Daten?
Man muss in der Lage sein, in unstrukturierten Daten gewisse Entitäten und Objekte zu erkennen, denn nur so kann ich sie mit den strukturierten Daten verbinden. Ich muss zum Beispiel Organisationen oder geografische Bezeichnungen auch bei sehr kurzen Meldungen, wo es nicht viel Kontext gibt, zuverlässig erkennen. Über automatisierte Verfahren wie zum Beispiel Mapping auf Wikipedia kann ich sehr viel über die erkannten Entitäten erfahren. Wenn ich in unstrukturierten Inhalten beispielsweise die Entität „Wien“ erkenne, dann weiß ich durch die Verknüpfung mit strukturierten Datenbanken automatisch auch, wieviele Einwohner Wien zum Beispiel hat, wo es genau liegt, etc.
Welche Innovationen gab es bei euren Big-Data-Tools in den letzten Jahren?
Wir sind inzwischen in der Lage, den Wahrheitsgehalt von Online-Inhalten automatisiert zu erkennen, also ob eine Information aus einer glaubwürdigen Quelle kommt oder mit Vorsicht zu genießen ist. Auch bei der Verknüpfung von Analysen mit der Erstellung von Information hat sich Einiges getan. Ziel ist dabei ein den Kontext erkennendes System, das in Echtzeit verwandte Inhalte vorschlägt, ohne, dass ich extra danach suchen muss. Zum Beispiel wie die öffentliche Meinung zu dem Thema aussieht, mit dem ich mich gerade beschäftige. Darüber hinaus haben wir stark an der Skalierbarkeit unserer Algorithmen gearbeitet und die Anwortzeiten der Dashboards optimiert.
Das Gespräch führte Oliver Weiss.
Be the first to comment