Big Data Dschungel – Daten brauchen Konsolidierung

Wenn Unternehmensdaten schlecht gewartet sind oder auf falschen Feldformaten beruhen verlieren sich Big Data Projekte rasch im Dickicht, meint Daten-Experte Benjamin Stremitzer im Interview mit der Computerwelt. Lesen Sie mehr über die größten Fallstricke und Best Practice im Stammdaten-Management als Voraussetzung für Big Data. [...]

Computerwelt: Alle Welt redet von Big Data, also dem intelligenten Bearbeiten großer Datenmengen aus vielfältigen Quellen zum Zweck der raschen Analyse und individuellen Kundenansprache. Sie sind Adressdaten Spezialist – Finden sie Big Data bei ihren Kunden?
Benjamin Stremitzer: Ja, in verschiedensten Formen. Big Data ist ein Schlagwort das für vieles verwendet wird und viele Themen integriert. Gleichzeitig sehe ich dabei aber auch die Herausforderung, dass die Auswertungen oft auf Basis von nicht konsolidierten Daten erfolgen. Für Software und Systeme werden große Summen ausgegeben, aber die doppelten Firmen-Datensätze zu bereinigen – dafür fehlt dann das Geld. Ich hatte schon Kunden wo IKEA als Unternehmen 69 Mal im System vorkam. Machen Sie mit solch einer Daten-Substanz einmal Umsatz-Auswertungen oder Big Data Analysen! Jede Art der präzisen Auswertung erfordert saubere Schnittstellen – sozusagen ein sauberes Getriebe.
Was sind denn die konkreten Probleme mit dem Datenbestand die sie bei Kunden sehen?
Stremitzer: Tatsächlich findet man viele historisch gewachsene Datenbank Strukturen und Formate vor. Diese hatten und haben für jede Abteilung ihre Berechtigung. Die Herausforderung im Zeitalter von Big Data aber ist es, Abteilungs-übergreifend eine einheitliche Sichtweise auf die Daten zu bekommen. Diese erfordert dann ein einheitliches Daten-Material. Überspitzt gesagt verwenden viele Kunden ihre Datenbanken ganz falsch. Wenn man ZB im Outlook seine fünfhundert wichtigsten Kontakte sammelt, schreibt man oft zu einer Person drei verschiedene Firmennamen ins Feld. Wenn man das aber bei einer Datenbank mit 5.000 oder gar 50.000 Datensätzen macht, hat man am Ende fünf verschiedene Versionen eines Firmennamens. Die Best Practice für 50.000 Datensätze, an denen womöglich mehrere Abteilungen arbeiten schaut eben anders aus. Die Datenbanken die ich vorfinde sind selten darauf ausgerichtet mit großen Datenmengen umzugehen. Nicht weil die Prozessoren nicht schnell genug sind, sondern weil der Feld-Aufbau grundlegend falsch ist.
Welche Fehler werden hier häufig gemacht?
Stremitzer: Wenn man ZB in großen Datenbanken Hausnummer, Tür und Stiege nicht in drei Felder trennt, wird man sich schwer tun. Die Mozart Gasse 1/top 2 und Wolfang Amadeus Mozart Gasse 1 und die W. Mozartg. 1 /Tür 2 gehören alle zum selben Kunden, nur nicht in der Datenbank. Und man kann sie nicht sauber trennen ohne einen enormen Mehraufwand auszulösen. Nächstes Problem: Wenn man dreizeilige Firmennamen im System zulässt (Firma1, Firma2, Firma3), und dort andere Informationen einträgt, kann man die richtige Firmen-Zuordnung nicht mehr auflösen. Creditanstalt wird ZB BA/CA wird Bank Austria wird Unicredit. Jeder kennt die historische Entwicklung, nur nicht das System selbst. Wie soll ich bei vier Firmennamen eine sinnvolle Umsatz-Auswertung fahren? Gelegentlich sind Probleme auch strukturell hausgemacht, ZB wenn Vertriebsmitarbeiter Provisionen für den Eintrag neuer Firmen bekommen. Das spätere Abgleichen verursacht immer Fehler, und die sind teuer. Dann versende ich meine Hochglanz-Aussendung an sechs Unternehmen statt eines.
Was sind noch Vorteile guter Datenqualität aus Unternehmenssicht?
Stremitzer: Ich hatte Kunden wo eine Adress-Konsolidierung mehr als ein Drittel der Mailing Budgets einsparen konnte. Zum anderen soll eine Datenbank ja kein Friedhof sein, sondern laufende Vergleiche ermöglichen. Einer wäre ZB herauszufinden, wer meine bestehenden Kunden sind, und wer noch mein Kunde sein könnte. Mit einer sauberen Datenbank lässt sich das schnell machen. Weiters geht es darum, für bestimmte Kundensegmente rasch Kampagnen machen zu können oder aus dem CRM heraus Analysen zu machen; ZB wie die Produkte am Markt ankommen. Bei Big Data geht es ja nicht zuletzt auch darum, Abteilungs-übergreifende Daten gemeinsam darstellen zu können. (kiss)


Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*