GfK: Die Kunst der Social-Media-Analyse

Facebook, Twitter & Co. gewinnen rasch an Bedeutung, wenn es darum geht, Stimmungen und Meinungen zu Produkten einzufangen. Da liegt es auf der Hand, der Speerspitze der Marktforschung in Sachen aktueller Analyse-Möglichkeiten auf die Finger zu schauen. [...]

Die GfK-Gruppe gehört zu den führenden Marktforschungsunternehmen weltweit, ist in mehr als 100 Ländern aktiv und beschäftigt über 11.500 Mitarbeiter. Das Angebot ist dabei in zwei Bereiche aufgeteilt: Consumer Choices und Consumer Experiences. Ersterer liefert Daten, die Entscheidungen und Tätigkeiten der Verbraucher widerspiegeln. Bei Consumer Experiences geht es um Verhalten und Einstellungen der Verbraucher und wie Menschen die Welt wahrnehmen und erfahren.

Die GfK hat die steigende Bedeutung der Informationen aus Social Media früh erkannt und bietet in Deutschland im Bereich Digital Research die Auswertung derartiger Daten an. Dazu ist es notwendig, Texte aus dem Web oder aus Umfragen zu erfassen und auszuwerten. Das reicht vom Durchsuchen unterschiedlichster Internet-Quellen (Crawling), über Content Exctraction bis zur Analyse selbst. Als Ergebnis dieses Prozesses sollen zuverlässige Aussagen zum Beispiel über die Einstellung der Internetnutzer gegenüber bestimmten Produkten möglich sein.

Um die komplexen Anforderungen erfüllen zu können, plante das Unternehmen, das Produkt GfK Ceres zu entwickeln, das mit Hilfe einer Software die generische Extraction aus nahezu beliebigen Online-Quellen ermöglichen soll.

Im Jahr 2007 entschied sich die GfK nach einer gründlichen Marktevaluierung die Rapid-I-Lösung Rapidminer in der Enterprise Edition für die genannte Aufgabe einzusetzen. Ein ausschlaggebender Faktor bei der Wahl war die Möglichkeit der Replikation und Wiederverwendbarkeit. So erzielt das Unternehmen eine immense Reduzierung des Arbeitsaufwands mit dem generischen Content Extraction Model, das aus nahezu beliebigen Internetquellen die relevanten Daten extrahiert. Dieses ermöglicht insbesondere auch, Prozesse oder Prozessteile wiederzuverwenden und als Vorlage beziehungsweise Bibliothek abzuspeichern, so dass sie nicht für jede Crawling-Aktion neu geschrieben werden müssen. Auf diese Weise laufen Prozesse automatisiert ab und man benötigt keine manuelle Nutzerinteraktion mehr.

Im Laufe der Zeit galt es jedoch, riesige Datenmassen auszuwerten, die Rapidminer allein nicht mehr bewältigen konnte. Seit 2011 setzt das Marktforschungsinstitut für GfK Ceres daher zusätzlich den leistungsstarken Analyseserver Rapidanalytics ein und profitiert neben der größeren Performanz von Vorteilen wie einer besseren Integrierbarkeit und interaktiver Visualisierung. Die zuvor für die Datenanalyse in Erwägung gezogenen Alternativprodukte hat das Marktforschungsinstitut letztlich aus Kostengründen beziehungsweise wegen Einschränkungen in der Funktionalität, fehlendem Support oder mangelnder Offenheit des Systems verworfen. Die Einführung von Rapidminer kam ohne Testphase aus, die Entscheider nahmen während einer Schulung bei Rapid-I die Lösung gleich selbst unter die Lupe. Sie ließ sich sehr schnell innerhalb weniger Minuten installieren, besonderes Know-how war dafür nicht notwendig. Rapidanalytics erforderte den eintägigen Einsatz eines IT-Spezialisten, der in diesem Zeitrahmen das Server-Setup und die Installation vorgenommen, User angelegt und das Remote-Repository in Rapidminer eingebunden hat.

Auf Anwenderseite war zur Erstellung von Filterkriterien für die Textanalyse das Erlernen von regulären Ausdrücken notwendig. Eine besondere technologische Herausforderung stellt die Optimierung von Prozessen dar, die mehr RAM-Speicher benötigen, als vorhanden ist. Um mehr Platz zu schaffen, werden Sample-Operatoren zur Unterteilung der Datenmenge in kleinere Zufallsstichproben eingesetzt, die anschließend schrittweise analysiert werden. Ein weiteres Thema war die Proxy-Unterstützung: Da es anfangs keine für Rapidminer gab, hat man ein Tunneling durchgeführt. Inzwischen wird Proxy vollends unterstützt.

INTERNATIONALE PROJEKTE

Rapidminer sammelt für GfK Ceres Daten aus Web-Texten. Mit Hilfe von Crawling-Prozessen durchsucht die Lösung Internet-Seiten und extrahiert Content, das heißt, sie sondert Werbung aus und bereinigt ihn von HTML-Struktur. Anschließend wird anhand der Daten eine sogenannte Sentimentanalyse durchgeführt, die im Internet geäußerte Stimmungen und Meinungen einfängt. Durchsucht werden deutsche ebenso wie internationale Webseiten. Produktiv wird die Lösung bei GfK Deutschland genutzt, die Projekte sind jedoch international.

Das Rapid-I-Produkt kann ganz einfach als Programm – vergleichbar mit Microsoft Word – vom stationären PC aus gestartet werden. Rapidminer dient darüber hinaus als eine Art Benutzeroberfläche: Nutzer greifen über das Programm auf Rapidanalytics zu. Analyseprozesse laufen dann rund um die Uhr im Hintergrund, so dass die Performance nicht beeinträchtigt wird und eine hohe Anzahl gleichzeitiger Nutzer bedient werden kann. Der Einsatz von Rapidanalytics erlaubt dank der Client-Server-Architektur den Einsatz deutlich stärkerer Hardware und mehr Arbeitsspeicher und verbessert zudem die Zusammenarbeit. Da die Dateien im Repository auf dem Server abgelegt werden, können andere Nutzer an den Daten arbeiten – man muss sie nicht umständlich per USB-Stick von einem Rechner zum anderen transferieren, wie dies bei der lokalen Version noch der Fall war.

Rapidminer hat mit der einfachen Nutzeroberfläche, den niedrigen Kosten und dem umfassenden Support gepunktet. Dass es sich um eine Open-Source-Lösung handelt, war von Anfang an ein wichtiger Faktor. Denn so ist es möglich, dass auch temporäre Anwender wie Aushilfen oder externe Zulieferer das System kurzfristig ohne Lizenz nutzen können. »Der Open-Source-Gedanke war wichtig bei der Entscheidung für eine leistungsstarke und gleichermaßen kosteneffiziente Datenanalyselösung für unser Angebot GfK Ceres«, betont Thomas Eggebrecht, Senior-IT-Specialist bei der GfK Consumer Experiences, Abteilung Digital Research (Interview siehe Kasten). »Wir haben uns eine Reihe anderer Produkte auf dem Markt angeschaut, aber keines konnte die Anforderungen an eine flexible und teilweise kurzfristige Nutzung mit zuverlässigem Support so erfüllen wie Rapidminer.«

OFFENES SYSTEM

Zu den Vorteilen gehört auch das hohe Maß an Flexibilität: Die Lösung läuft dank Java auf allen Systemen, über XML-Dateien wird ein Austausch von Analyseprozessen zwischen den Mitarbeitern gewährleistet. Es gibt einen einfachen Update-Mechanismus, und Prozesse lassen sich per Script sowohl unter Linux als auch unter Windows ausführen. Dank ihrer Offenheit kann die Lösung zudem jederzeit um eigene Plugins oder Operatoren an der quelloffenen Java-API erweitert werden. Zudem unterstützt sie alle in der Marktforschung gängigen Datei-Formate wie SPSS, MS-Office, ASCII und txt.

»Mit den Rapid-I-Lösungen, die wir in GfK Ceres einsetzen, können wir unseren Kunden hochwertige, kontrollierbare und nachvollziehbare Methoden anbieten«, erklärt Eggebrecht. »Dank der einfachen Handhabung, den geringen Anforderungen an Software und Hardware, der Integrationsfähigkeit und nicht zuletzt der Ermöglichung weltweiter Kollaboration sind wir bestens gerüstet, um mehr oder weniger jede Anfrage nach Analysen von Web-Inhalten schnell und kompetent bedienen zu können.«

NACHGEFRAGT

Die COMPUTERWELT sprach mit Thomas Eggebrecht, Senior-IT-Specialist bei der GfK Consumer Experiences, Abteilung Digital Research. Die rund 30 Mitarbeiter von Digital Research sind auf die Durchführung von herkömmlicher Marktforschung, wie etwa der Programmierung von Online-Umfragen, als auch auf die Gewinnung und Analyse von Social Media spezialisiert.

Welche Rolle spielt Social Media beim Marktforschungsunternehmen GfK?

Die Bedeutung von Social Media wächst sehr schnell. Das Auftragsvolumen ist derzeit jedoch im Vergleich zu herkömmlichen Methoden wie Online-Fragebogen oder Telefon noch gering.

Wann haben Sie mit der Analyse von Daten aus Facebook & Co. begonnen?

Wir sind sehr früh, 2006, in das Thema eingestiegen. Zu diesem Zeitpunkt suchten wir nach entsprechenden Lösungen und passenden Methoden. Wir probierten alles Mögliche aus. Wir haben uns schließlich für die Open-Source-Lösung Rapidminer von Rapid-I entschieden.

Welche anderen Lösungen haben Sie in diesem Bereich getestet?

Wir haben uns auch kommerzielle Lösungen angesehen, die alle keine zufriedenstellenden Ergebnisse lieferten, aber sehr teuer waren. Ein Grund, warum wir mit Open-Source-Software begonnen haben: Das Thema war 2006/07 noch nicht so groß, dass wir jeden Monat 300 Projekte abzuarbeiten haben, so dass sich eine kommerzielle Software lohnen würde. Der zweite Grund: Selbst wenn wir hunderte Projekte pro Monat abwickeln sollten, ist eine Open-Source- bzw. lizenzfreie Software im Vorteil, weil man einfach flexibler ist. Es gibt nichts Schlimmeres als Lizenzen, die Personen- und Hardware-gebunden sind. Das zeigt sich etwa bei einem Gerätetausch. Ein Unternehmen, das kommerzielle Software einsetzt, braucht eine eigene Abteilung, die sich nur um die Lizenzierung kümmert. Dafür ist der Aufwand zu groß und das Projektvolumen im Social-Media-Bereich einfach noch zu klein.

Was sind die zentralen Funktionen von GfK Ceres, das Sie mit Hilfe von Rapidminer entwickelt haben?

GfK Ceres ist im Prinzip eine Sammlung von Methoden. Wir verwenden Rapidminer bzw. Rapidanalytics, um die Prozesse intelligent aufzusetzen. Eine Social-Media-Analyse besteht im Prinzip aus drei Phasen. Die erste Phase ist die Datengewinnung, also Web Crawling. Die zweite Phase ist das Extrahieren und Aufbereiten der Texte. Die dritte Phase ist die eigentliche Analyse. Für die Phasen Zwei und Drei verwenden wir fast ausschließlich Rapidminer bzw. Rapidanalytics. Für das Crawling nutzen wir zusätzlich eine andere Software, da uns die entsprechende Funktion des Rapidminer nicht genügt.

Wie sind Sie mit der Leistung der Rapid-I-Lösungen zufrieden?

Mit Rapidminer lassen sich Texte mit einem zugehörigen Datum vollautomatisch und unabhängig von der HTML-Struktur relativ sauber extrahieren.

Wie ist die Qualität der automatischen Sentiment-Analyse? Müssen Sie manuell nacharbeiten?

Obwohl wir viel mit den Einstellungen gespielt haben, sind wir mit der maschinellen Sentimentanalyse nicht sehr zufrieden. Das liegt nicht an der Lösung selbst, sondern an den Texten, die aus dem Web kommen. Es sind oft sehr allgemeine Texte ohne Aussage. Deswegen lassen wir immer eine textliche Stichprobe per Hand kodieren. Es ist mit Rapidminer möglich, eine Sentiment-Analyse mit einem Machine- Based-Learning-Verfahren durchzuführen, indem wir aus der Menge der Texte Stichproben ziehen, diese nach den Klassen, die wir brauchen, labeln – zum Beispiel »positiv«, »negativ«, »neutral« – und dann die Maschine trainieren. Diese analysiert den Rest der Daten. Das klappt sehr gut. Ich ziehe die Bezeichnung »Klassifizierung« der »Sentiment-Analyse« vor. Es ist im Grunde das gleiche Verfahren wie bei einem Spam-Filter.

Welche Pläne haben Sie in Sachen Social Media?

Das Thema ist stark im Kommen, wir wollen es dementsprechend ausbauen. Wir haben derzeit nicht die Kapazität für weltweite Studien für möglichst alle Länder. Da sind wir dran.