5. Dezember 2025

Datenvielfalt: Auch KI-Modelle brauchen eine zweite Meinung

KI-Modelle sind nur so gut wie ihre Datengrundlage. Je mehr unterschiedliche Daten sie haben, desto genauer – und auch fairer – sind ihre Entscheidungen. Das Schlüsselwort ist hier: Datenvielfalt. [...]

Jennifer Belissent, Principal Data Strategist bei Snowflake (cO Snowflake

Unser Leben wird zunehmend von automatisierten Entscheidungen beeinflusst, die auf Algorithmen beruhen. Ganz gleich, ob es sich dabei um automatisierte Flugsysteme handelt, die Passagiere auf der Grundlage von Daten sicher durch den Luftraum bringen sollen, oder um Berechnungen von Banksystemen, die über die Vergabe von Krediten an Verbraucher entscheiden. Die Qualität und Genauigkeit der dort verwendeten Daten sind dabei von größter Bedeutung. Wenn es um unsere eigenen Entscheidungen geht, ist es grundsätzlich hilfreich, auf eine Vielfalt von Informationen zurückgreifen und die Sachlage aus verschiedenen Perspektiven zu betrachten. Besteht Unsicherheit, holen wir Menschen uns oft eine zweite Meinung ein. Auch für die Automatisierung und die heutigen KI-Modelle ist dieses Prinzip von Vorteil. Im Kern geht es dabei um mehr Datenvielfalt.

Mit einer breiten Vielfalt an Daten lässt sich das Risiko verringern, dass KI-Modelle Verzerrungen übernehmen und „halluzinieren“. Kurz gesagt, Vielfalt hilft, Fehler zu vermeiden. Vor einigen Jahren prägten Branchenanalysten den Begriff „Wide Data“ im Gegensatz zu „Big Data“, um den Fokus auf Daten zu legen, die eine umfassendere Analyse oder eine 360-Grad-Sicht ermöglichen. In diesem Zusammenhang lässt sich auch von vielfältigen Daten sprechen, die aus bisher unzugänglichen oder unerschlossenen Quellen von Partnern, Kunden, Datenanbietern oder aus der Automatisierung selbst stammen. Diese vielfältigen Daten bieten einen breiteren Überblick und helfen, potenzielle blinde Flecken zu vermeiden, die durch traditionelle Quellen entstehen können.

Vielfältige Daten nutzbar machen

Früher waren Daten oft in isolierten Anwendungen oder Systemen gespeichert, die im gesamten Unternehmen verteilt waren. Data-Marts, die für bestimmte Analysezwecke erstellt wurden, trugen zusätzlich zur Fragmentierung bei. Um diese internen Datensilos aufzubrechen, ist der erste Schritt die Einrichtung unternehmensweiter Daten-Repositories und klarer Richtlinien für den Datenzugriff. Um die Nutzung und Wiederverwendung von Daten zu verbessern, sollten Unternehmen klare Konzepte für Datenprodukte entwickeln, Prozesse zur Erstellung und Bereitstellung dieser Produkte einführen sowie spezialisierte Teams dafür aufstellen. Ein Datenkatalog oder -marktplatz für Endnutzer kann zudem die Auffindbarkeit und den Zugang zu den Daten erheblich erleichtern.

Damit den Mitarbeitenden auch wirklich eine Vielfalt an Daten zur weiteren Verarbeitung zur Verfügung stehen, müssen Unternehmen sicherstellen, auch unstrukturierte Daten – wie E-Mails, Bilder und Sprachaufnahmen – in maschinell auswertbare Formate umzuwandeln. Moderne Datenplattformen speichern diese unstrukturierten Daten, indem sie sie in externen Speicherbereichen ablegen und über externe Tabellen referenzieren, ohne die Daten direkt auf die Plattform zu laden. Mit Unterstützung für verschiedene Dateiformate und durch Transformationsprozesse auf Basis von SQL-Abfragen und benutzerdefinierten Funktionen (UDFs) können diese Plattformen unstrukturierte Daten in nutzbare, analysierbare Informationen umwandeln.

Datenkollaboration über Unternehmensgrenzen hinweg

Durch die Zusammenarbeit mit Partnern können Unternehmen den Zugang zu Daten auf ihr gesamtes Ökosystem ausweiten. Einzelhändler wie Aldi tauschen beispielsweise Daten mit ihren Lieferanten aus, um Ausverkäufe zu verhindern und das Kundenerlebnis sowie das Marketing zu verbessern. Währenddessen arbeiten Fahrzeughersteller wie Scania mit Flottenbetreibern zusammen und verwenden deren Daten für das Produktdesign sowie für die Wartung. Sogar Patientendaten können Organisationen gemeinsam nutzen, um Diagnosen zu beschleunigen, Behandlungen zu personalisieren und die Untersuchungsergebnisse zu verbessern. Für solche Anwendungsfälle erlauben Data Clean Rooms die Zusammenarbeit unter Berücksichtigung des Datenschutzes.

Sie ermöglichen eine kontrollierte Umgebung, in der mehrere Unternehmen oder Abteilungen eines Unternehmens sicher mit sensiblen oder regulierten Daten zusammenarbeiten können. Die Privatsphäre der Unternehmensdaten bleibt dabei jederzeit gewahrt und Unternehmen stehen so nicht länger vor der Herausforderung zwischen der Einhaltung von Vorschriften und der Verfügbarkeit möglichst vielfältiger Daten abwägen zu müssen. Vielmehr können sie Daten gemeinsam sicher nutzen und die eigene Datenvielfalt erhöhen, während personenbezogene Daten anonymisiert, verarbeitet und konform gespeichert werden.

Neben der Datenkollaboration mit anderen Organisationen gewährleistet auch die Nutzung externer Datenbanken mehr Datenvielfalt. Wenn eine Personalabteilung beispielsweise ein Profil für eine bestimmte Rolle im Unternehmen erstellen möchte und dabei nur auf interne Daten zurückgreift, spiegelt das oft nur die Eigenschaften früherer Mitarbeitenden wider – unabhängig davon, ob diese wirklich relevant für eine Ausschreibung sind.

Quellen wie die HR-Datenbank von Revelio (Workforce Data Analytics), die über Datenmarktplätze zugänglich sindermöglichen es Unternehmen , eine breitere Vielfalt an potenziellen Mitarbeitenden zur Erstellung von Jobprofilen abzubilden. KI-Modelle können dann entweder direkt mit diesen externen Daten trainiert werden oder sie als Referenz für die Datengenerierung im Retrieval Augmented Generation (RAG) nutzen.

Vielfalt durch synthetische Daten

Ein anderer Ansatz, um eine ausgewogene Darstellung zu erreichen, besteht darin, Daten synthetisch herzustellen. Wenn eine Verzerrung erwartet oder beobachtet wird, können Unternehmen gezielt neue Daten erzeugen und ihre KI-Modelle mit diesen trainieren, um unterrepräsentierte Merkmale zu verstärken. Ein KI-Online-Videoredakteur entwickelte so beispielsweise ein auf Vielfalt abgestimmtes KI-Modell (Diversity Finetuned, DFT), mit dem sich die Darstellung von Minderheiten verbessern lässt.

Das Modell wurde mit synthetischen Daten trainiert, die sich in der wahrgenommenen Hautfarbe sowie dem Geschlecht unterscheiden und aus verschiedenen Textaufforderungen entstanden sind. Diese Prompts werden unter anderem aus multiplikativen Kombinationen von Ethnien, Geschlechtern, Berufen und Altersgruppen erstellt. Im Vergleich zu den Grundmodellen berücksichtigen die DFT-Modelle mehr Personen mit wahrgenommener dunklerer Hautfarbe und auch mehr Frauen. Eine Anfrage nach einem Bild einer Geschäftsperson würde so beispielsweise eher auch Frauen mit Kopftuch oder einen Arzt mit dunklerer Hautfarbe enthalten.

Mehr Daten für bessere KI-Modelle

Datenvielfalt spielt eine zentrale Rolle dabei, die Genauigkeit von KI-Modellen zu verbessern und Verzerrungen zu vermeiden. Der Übergang von „Big Data“ zu „Wide Data“ oder „diversen Daten“ verdeutlicht die wachsende Bedeutung von umfassenderen und vielfältigeren Datenquellen. Unternehmen sollten interne Datensilos aufbrechen, unstrukturierte Daten nutzbar machen, Partnerschaften zur Datenzusammenarbeit fördern sowie externe Datenquellen einbeziehen und bei Bedarf synthetische Daten erstellen. Mit diesen Ansätzen steigern Organisationen nicht nur die Qualität ihrer KI-Modelle, sondern sichern sich auch durch eine bewährte Zweitmeinung ab und gewährleisten so eine verantwortungsvolle und zukunftsorientierte Datenstrategie.

*Die Autorin Jennifer Belissent ist Principal Data Strategist bei Snowflake.

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

5. Dezember 2025 Nicholas Jackson *

Ein Blick in die Praxis zeigt: IT-Sicherheit scheitert nicht an Technologien oder Fehlverhalten, sondern bereits grundsätzlich an einem Mangel an Unternehmenskultur. Wenn Cybersicherheit in einer Organisation nur als eine schlecht durchgesetzte Aufgabe von anderen für andere verstanden wird, entsteht vielleicht eine oberflächliche Compliance, aber keine wirkliche Cyberresilienz. […]

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

5. Dezember 2025

Um den Erfolg agiler Arbeitsweisen zu messen, setzen Österreichs Unternehmen auf klare Kennzahlen. Dabei ist vor allem die Kundenzufriedenheit wichtig. Gleichzeitig gewinnt Effizienz im Hinblick auf die angespannte Wirtschaftslage an Bedeutung: kürzere Projektlaufzeiten werden immer wichtiger, genauso wie die Kontrolle der Implementierungskosten. […]

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

5. Dezember 2025 Daniel Bader *

Zugegeben, am kryptischen Namen des brandneuen 14-Zoll-Notebooks sollte Hersteller Medion noch etwas feilen. Das, worauf es bei einem Laptop aber ankommt, ist vom Feinsten. Der PCtipp-Test. […]

Michael Maier, Director Austria iteratec (c) iteratec

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

4. Dezember 2025 Michael Maier*

Wie weit wird die Evolution der Künstlichen Intelligenz gehen und wie wird sie sich auf Wirtschaft und Gesellschaft als Ganzes auswirken? Was für Privatpersonen interessante Fragen sind, sind für Unternehmer existenzielle Themen, schließlich müssen diese wirtschaftlich gegenüber Konkurrenten bestehen, von denen viele bereits an einer effektiven Nutzung von KI arbeiten. […]

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

4. Dezember 2025

Damit KI-Anwendungen produktiv und skalierbar eingesetzt werden können, benötigen Unternehmen zunächst eine tragfähige technologische und organisatorische Basis. Insbesondere moderne Datenplattformen, klare Governance-Strukturen und eine hohe Datenqualität gelten als Voraussetzung für erfolgreiche KI-Nutzung. Aber genau hier besteht noch Nachholbedarf. […]

Diese Trends bestimmen 2026 das SAP-Universum

4. Dezember 2025

Vor allem Datensouveränität, Compliance und das nahende Ende des Supports für Legacy-Lösungen stehen im Fokus – neben den Dauerthemen Cloud und KI. […]

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

4. Dezember 2025

Die neue Marke vereint den operativen Kern des Tech-Consulting-Dienstleisters und bekräftigt sein Engagement, Wirtschaft und Gesellschaft mit Technologie zu unterstützen. […]

Produktionsplanung 2026: Worauf es ankommt

4. Dezember 2025

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Monitor Eizo FlexScan EV2740S im Test

4. Dezember 2025 Daniel Bader *

Was soll denn an einem 27 Zoll großen Monitor für Büroumgebungen schon besonders sein? Vieles, wie unser Test klar macht. […]

Datenvielfalt: Auch KI-Modelle brauchen eine zweite Meinung

KI-Modelle sind nur so gut wie ihre Datengrundlage. Je mehr unterschiedliche Daten sie haben, desto genauer – und auch fairer – sind ihre Entscheidungen. Das Schlüsselwort ist hier: Datenvielfalt. [...]

Vielfältige Daten nutzbar machen

Datenkollaboration über Unternehmensgrenzen hinweg

Vielfalt durch synthetische Daten

Mehr Daten für bessere KI-Modelle

Mehr Artikel

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

Diese Trends bestimmen 2026 das SAP-Universum

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

Produktionsplanung 2026: Worauf es ankommt

Monitor Eizo FlexScan EV2740S im Test

Be the first to comment

Leave a Reply Antwort abbrechen