Big-Data-Dschungel: Daten brauchen Konsolidierung

Wenn Unternehmensdaten schlecht gewartet sind oder auf falschen Feldformaten beruhen, verlieren sich Big-Data-Projekte rasch im Dickicht, warnt Daten- und Datenbank-Experte Benjamin Stremitzer im Interview mit der COMPUTERWELT. [...]

Benjamin Stremitzer ist Datenbank-Marketingexperte und Geschäftsführer von business-assistance.com. Im Gespräch mit der COMPUTERWELT nennt er die größten Fallstricke und Best Practices im Stammdaten-Management sowie den Einfluss von Big Data auf seine Geschäftsentwicklung.

Alle Welt redet von Big Data Analytics. Sie sind ein Adressdaten-Spezialist. Finden Sie Big Data bei Ihren Kunden?
Benjamin Stremitzer: Ja, in verschiedensten Formen. Big Data ist ein Schlagwort, das für vieles verwendet wird und viele Themen integriert. Gleichzeitig sehe ich dabei aber auch die Herausforderung, dass die Auswertungen oft auf Basis von nicht konsolidierten Daten erfolgen. Für Software und Systeme werden große Summen ausgegeben, aber die doppelten Firmen-Datensätze zu bereinigen – dafür fehlt dann das Geld. Ich hatte schon Kunden, wo IKEA als Unternehmen 69 Mal im System vorkam. Machen Sie mit solch einer Daten-Substanz einmal Umsatz-Auswertungen oder Big-Data-Analysen! Jede Art der präzisen Auswertung erfordert saubere Schnittstellen.

Was sind denn die konkreten Probleme mit dem Datenbestand, die Sie bei Kunden sehen?
Tatsächlich findet man viele historisch gewachsene Datenbank-Strukturen und Formate vor. Diese hatten und haben für jede Abteilung ihre Berechtigung. Die Herausforderung im Zeitalter von Big Data aber ist es, Abteilungsübergreifend eine einheitliche Sichtweise auf die Daten zu bekommen. Diese erfordert dann ein einheitliches Daten-Material. Überspitzt gesagt verwenden viele Kunden ihre Datenbanken ganz falsch. Wenn man etwa im Outlook seine fünfhundert wichtigsten Kontakte sammelt, schreibt man oft zu einer Person drei verschiedene Firmennamen ins Feld.
Wenn man das bei einer Datenbank mit 5.000 oder 50.000 Datensätzen macht, hat man am Ende fünf verschiedene Versionen eines Firmennamens. Die Best Practice für 50.000 Datensätze, an denen womöglich mehrere Abteilungen, arbeiten schaut eben anders aus. Die Datenbanken, die ich vorfinde, sind selten darauf ausgerichtet mit großen Datenmengen umzugehen. Nicht weil die Prozessoren nicht schnell genug sind, sondern weil der Feld-Aufbau grundlegend falsch ist.

Welche Fehler werden hier häufig gemacht?
Wenn man zum Beispiel in großen Datenbanken Hausnummer, Tür und Stiege nicht in drei Felder trennt, wird man sich schwer tun. Die Mozart Gasse 1/top 2 und Wolfang Amadeus Mozart Gasse 1 und die W. Mozartg. 1 /Tür 2 gehören alle zum selben Kunden, nur nicht in der Datenbank. Und man kann sie nicht sauber trennen ohne einen enormen Mehraufwand auszulösen. Nächstes Problem: Wenn man dreizeilige Firmennamen im System zulässt (Firma1, Firma2, Firma3), und dort andere Informationen einträgt, kann man die richtige Firmen-Zuordnung nicht mehr auflösen.
Creditanstalt wird etwa BA/CA wird Bank Austria wird Unicredit. Jeder kennt die historische Entwicklung, nur nicht das System selbst. Wie soll ich bei vier Firmennamen eine sinnvolle Umsatz-Auswertung fahren? Gelegentlich sind Probleme auch strukturell hausgemacht, etwa wenn Vertriebsmitarbeiter Provisionen für den Eintrag neuer Firmen bekommen. Das spätere Abgleichen verursacht immer Fehler, und die sind teuer. Dann versende ich meine Hochglanz-Aussendung an sechs Unternehmen statt eines.

Was sind weitere Vorteile guter Datenqualität aus der Perspektive des Unternehmens?
Ich hatte Kunden, wo eine Adress-Konsolidierung mehr als ein Drittel der Mailing-Budgets einsparen konnte. Zum anderen soll eine Datenbank ja kein Friedhof sein, sondern laufende Vergleiche ermöglichen. Einer wäre zum Beispiel herauszufinden, wer meine bestehenden Kunden sind, und wer noch mein Kunde sein könnte. Mit einer sauberen Datenbank lässt sich das schnell machen. Weiters geht es darum, für bestimmte Kundensegmente rasch Kampagnen machen zu können, oder aus dem CRM heraus Analysen zu machen; zum Beispiel wie die Produkte am Markt ankommen. Bei Big Data geht es ja nicht zuletzt auch darum, abteilungsübergreifende Daten gemeinsam darstellen zu können.

Was wäre die Voraussetzung für Big Data aus Ihrer Sicht?
Ein Unternehmen sollte eine Data Governance für Stammdaten-Management haben. Dies bedeutet dass es Richtlinien gibt, wie Daten geführt werden – und dass sich auch alle Mitarbeiter daran halten müssen. Bei Firmenfusionen werden oft riesige Datenbestände zusammengeführt, die dann zwei verschiedene Datenformate haben. Wie erkenne ich hier nur die Gesamtzahl der Kunden, ganz zu schweigen von Potenzialen für Up- oder Cross-Selling? Jede sinnvolle Auswertung braucht einheitlich und stringent vorhandene User und Unternehmen.

Wie können Unternehmen gute Datenqualität in ihrem CRM herstellen?
Es gibt eine Best Practice für jede Datengröße. Jemand mit 5.000 Firmendaten braucht keine Referenzdatenbank die gegen alle bekannten Firmen matcht. Bei 500 Kunden kann ich noch mit Xing und LinkedIn meine Daten pflegen. Auch wenn man 2.000 Kunden hat und die maximale Zielgruppe 20.000 Personen beträgt, kann man die Daten noch manuell abgleichen. Wenn man aber in eine fünfstellige Anzahl an Unternehmenskunden kommt, muss man Daten verknüpfen. Telkos, Banken oder Versicherungen haben oft Millionen von Datensätzen, hier muss ich unbedingt referenzieren.

Wie schnell ändern sich Daten?
Das kommt auf die Struktur an. Wenn man nur Top-Unternehmen mit über hundert Mitarbeitern hat, ändert sich kaum etwas am Standort oder am Firmennamen. Dafür wechselt das Management häufig. Je mehr ich aber auf den Gesamtmarkt gehe, ändert sich das Bild.
Dann habe ich pro Jahr im Schnitt zehn Prozent Neugründungen und zehn Prozent gelöschte Firmen. Bei nicht protokollierten Unternehmen sind es laut meiner letzten Zählung sogar 14,4 Prozent Löschungen pro Jahr. Adressänderungen betragen derzeit knapp sechs bis acht Prozent pro Jahr, bei Nicht-Protokollierten rund acht Prozent. Das bedeutet dann, dass fast die Hälfte meiner Daten nach drei Jahren falsch ist.

Wie viele Daten haben Sie, woher beziehen Sie diese und wie werden sie gewartet?
Wir haben prinzipiell nur Business-Daten, und alles aus den üblichen öffentlich zugänglichen Quellen. Im Einzelfall ist das zum Beispiel das Firmenbuch oder Gewerberegister bzw. öffentlich zugängliche Datenbanken. Wir recherchieren verschiedenste Details und fügen sie intelligent zusammen. Durch Normierung lassen sich schnell Fehler erkennen – ob es eine Adresse etwa wirklich gibt, Personen richtig geschrieben sind, oder kürzlich verheiratete Frauen dieselbe Person mit anderem Nachnamen sind.
Eine Position wie ‚Diplom-Datenbereiniger‘ würde sofort auffallen. Durch das Katalogisieren und Referenzieren der Daten bemerkt man Ausreißer und kann diese korrigieren. Ein großes Set von hinterlegten Fehlerquellen unterstützt die Datenbereinigung. Wir haben kein großes Callcenter, aber großes Know-how im intelligenten Daten-Management. Wir schaffen es so, aus einer Million Adressen 98 Prozent zu normieren – dann muss man nur mehr zwei Prozent der Daten wirklich kontrollieren.

Wie steht es um den Datenschutz?
Ich bin ein großer Fan des Datenschutzes, der allerdings manchmal fehlinterpretiert wird. Veröffentlichte Informationen zu Unternehmen dürfen verarbeitet werden, ganz im Gegensatz zu sogenannten sensiblen Daten wie Gesundheit, politisches Bekenntnis etc. zu Privatpersonen.
Im Grunde darf jeder wissen, wer die Eigentümer und Geschäftsführer von einem Unternehmen sind, das ist ja nicht schützenswert. Ich konsolidiere daher ausschließlich diese öffentlich zugänglichen Informationen.

Wie funktioniert die Daten-Bereinigung konkret bei Ihren Kunden? Welche Schritte gibt es auf technischer Ebene?
In der Regel erhalte ich einen Abzug der Daten als Datenbank im Textformat. Mit den Stammdaten arbeite ich dann und konsolidiere sie. Die IT spielt sie dann wieder in die Unternehmens-Datenbank zurück. Das funktioniert grundsätzlich sehr einfach. Gelegentlich gibt es Probleme mit der logischen Struktur bei komplexen Daten, aber die lassen sich lösen.
Wenn zum Beispiel für ein zusammengeführtes Unternehmen vorher mehrere Kundenbetreuer zuständig waren, verlangt das eine logische Entscheidung, sowie unterschiedliche Interessen oder Kategorisierungen, zum Beispiel Ist-Kunde oder Ist-Interessent. Es stellt sich auch die Frage: Reicht der Auftrag über die Stammdaten hinaus, oder muss ein Regelwerk für solche Fälle her.

Immer mehr Daten gehen in die Cloud – wie wirkt sich diese Entwicklung auf Ihr Business aus?
Ich konzentriere mich auf die Daten-Inhalte, nicht den Speicherort oder das System. Eine Automatik bei Firmennamen herzustellen ist nicht möglich, weil der Mensch die Schlussentscheidung treffen muss. Letztendlich können Menschen Daten immer besser interpretieren als ein maschinelles Regelwerk.

Das Gespräch führte Roland Kissling.

Benjamin Stremitzer
Benjamin Stremitzer leitet seit 1996 „Business-Assistance, das Kompetenzzentrum für Daten und Adressen“ und hat sich auf Problemstellungen im inhaltlichen Management großer Datenbestände spezialisiert.
2002 stellte Stremitzer ein dreistufiges Datenreferenzierungsmodell vor, dass die Eindeutigkeit der Adresse, der Firma und der Person gewährleistet. Dieses Modell wird bis heute weiterentwickelt. Durch den Einsatz von Referenzdaten und strengen Richtlinien werden auch protokollierte und nicht protokollierte Firmendaten einfach vergleichbar.