Big Data Dschungel – Daten brauchen Konsolidierung

Wenn Unternehmensdaten schlecht gewartet sind oder auf falschen Feldformaten beruhen verlieren sich Big Data Projekte rasch im Dickicht, meint Daten-Experte Benjamin Stremitzer im Interview mit der Computerwelt. Lesen Sie mehr über die größten Fallstricke und Best Practice im Stammdaten-Management als Voraussetzung für Big Data. [...]

Was wäre die Voraussetzung für Big Data aus Ihrer Sicht?
Stremitzer: Ein Unternehmen sollte eine Data-Governance für Stammdaten-Management haben. Dies bedeutet dass es Richtlinien gibt wie Daten geführt werden – und dass sich auch alle Mitarbeiter daran halten müssen. Bei Firmenfusionen werden oft riesige Datenbestände zusammengeführt, die dann zwei verschiedene Datenformate haben. Wie erkenne ich hier nur die Gesamtzahl der Kunden, ganz zu schweigen von Potenzialen für Up- oder Cross-Selling? Jede sinnvolle Auswertung braucht einheitlich und stringent vorhandene User und Unternehmen.
Wie können Unternehmen gute Datenqualität in ihrem CRM herstellen?
Stremitzer: Es gibt eine Best Practice für jede Datengröße. Jemand mit 5.000 Firmendaten braucht keine Referenzdatenbank die gegen alle bekannten Firmen matcht. Bei 500 Kunden kann ich noch mit Xing und LinkedIn meine Daten pflegen. Auch wenn man 2.000 Kunden hat und die maximale Zielgruppe 20.000 Personen beträgt, kann man die Daten noch manuell abgleichen. Wenn man aber in eine fünfstellige Anzahl an Unternehmenskunden kommt, muss man Daten verknüpfen. Telkos, Banken oder Versicherungen haben oft Millionen von Datensätzen, hier muss ich unbedingt referenzieren.
Wie schnell ändern sich Daten im B2B Bereich?
Stremitzer: Das kommt auf die Struktur an. Wenn man nur Top-Unternehmen mit über hundert Mitarbeitern hat, ändert sich kaum etwas am Standort oder am Firmennamen. Dafür wechselt das Management häufig. Je mehr ich aber auf den Gesamtmarkt gehe, ändert sich das Bild. Dann habe ich pro Jahr im Schnitt 10 Prozent Neugründungen und 10 Prozent gelöschte Firmen. Bei nicht protokollierten Unternehmen sind es laut meiner letzten Zählung sogar 14,4 Prozent Löschungen pro Jahr. Adressänderungen betragen derzeit ca 6-8 Prozent pro Jahr, bei Nicht-Protokollierten rund 8 Prozent. Das bedeutet dann dass fast die Hälfte meiner Daten nach drei Jahren falsch ist.
Sie sind selbst auch ein Adressverlag – Wie viele Daten haben sie, woher beziehen sie diese und wie werden sie gewartet?
Stremitzer: Wir haben prinzipiell nur Business-Daten, und alles aus den üblichen öffentlich zugänglichen Quellen. Im Einzelfall ist dies ZB das Firmenbuch oder Gewerberegister bzw. öffentlich zugängliche Datenbanken. Wir recherchieren verschiedenste Details und fügen sie intelligent zusammen. Durch Normierung lassen sich schnell Fehler erkennen – ZB ob es eine Adresse wirklich gibt, Personen richtig geschrieben sind, oder kürzlich verheiratete Frauen dieselbe Person mit anderem Nachnamen sind. Eine Position wie „Diplom-Datenbereiniger“ würde sofort auffallen. Durch das Katalogisieren und Referenzieren der Daten bemerkt man Ausreißer und kann diese korrigieren. Ein großes Set von hinterlegten Fehlerquellen unterstützt die Datenbereinigung. Wir haben kein großes Callcenter, aber ein großes Knowhow im intelligenten Daten-Management. Wir schaffen es so ZB aus einer Mio. Adressen 98 Prozent zu normieren – dann muss man nur mehr zwei Prozent der Daten wirklich kontrollieren.
Wie steht es um den Datenschutz?
Stremitzer: Ich bin ein großer Fan des Datenschutzes, der allerdings manchmal fehlinterpretiert wird.. Veröffentlichte Informationen zu Unternehmen dürfen verarbeitet werden, ganz im Gegensatz zu sogenannten sensiblen Daten wie Gesundheit, politisches Bekenntnis etc. zu Privatpersonen. Jeder darf wissen, wer die Eigentümer und Geschäftsführer von Unternehmen sind, das ist nicht schützenswert. Ich konsolidiere ausschließlich diese öffentlich zugänglichen Informationen.
Wie funktioniert die Daten-Bereinigung konkret bei Ihren Kunden? Welche Schritte sind auf technischer Ebene zu gehen?
Stremitzer: In der Regel erhalte ich einen Abzug der Daten als Datenbank im Textformat. Mit den Stammdaten arbeite ich dann und konsolidiere sie. Die IT spielt sie dann in die Unternehmens-Datenbank zurück. Das funktioniert grundsätzlich sehr einfach. Gelegentlich gibt es Probleme mit der logischen Struktur bei komplexen Daten, aber die lassen sich lösen. Wenn zum Beispiel für ein zusammengeführtes Unternehmen vorher mehrere Kundenbetreuer zuständig waren, verlangt das eine logische Entscheidung. Desgleichen unterschiedliche Interessen oder Kategorisierungen, ZB Ist-Kunde oder Ist-Interessent. Reicht der Auftrag über die Stammdaten hinaus, muss ein Regelwerk für solche Fälle her.
Immer mehr Daten gehen in die Cloud – wie wirkt sich diese Entwicklung auf Ihr Business aus?
Stremitzer: Ich konzentriere mich auf die Daten-Inhalte, nicht den Speicherort oder das System. Eine Automatik bei Firmennamen herzustellen ist nicht möglich, weil der Mensch die Schlussentscheidung treffen muss. Letztendlich können Menschen Daten immer besser interpretieren als ein maschinelles Regelwerk.
Danke für das Gespräch!
*) Benjamin Stremitzer ist Datenbank Marketingexperte und Geschäftsführer von business-assistance.com 


Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*