Synthetische Daten fürs Business

Immer öfter werden Prozesse mittels künstlicher Intelligenz beziehungsweise Machine Learning auf smarte Weise automatisiert. Synthetisch generierte Daten helfen beim Training der KI. Ein Vorreiter auf diesem Gebiet ist das österreichische Unternehmen Mostly AI. Warum er für synthetische Daten eine große Nachfrage sieht, erklärt Mostly-AI-Chef Tobis Hann. [...]

Tobias Hann Kopie — Tobias Hann ist CEO von Mostly AI. (c) Mostly AI

Mostly AI wurde 2017 von den Data Scientists Michael Platzer, Klaudius Kalcher und Roland Boubela in Wien gegründet. Vor zweieinhalb Jahren ist Tobias Hann als CEO zum Team gestoßen, das – dezentral organisiert – mit um die 50 Mitarbeitern über Europa und mittlerweile auch den USA verstreut ist. Von Anfang an beschäftigte sich das Unternehmen – unter Zuhilfenahme von Machine-Learning-Algorithmen – mit der Erstellung von synthetischen Daten. Dass das ein Thema mit viel Potenzial ist und immer wichtiger wird, zeigt die Tatsache, dass Mostly AI bereits drei Finanzierungsrunden abgeschlossen hat. Bei der letzten Anfang 2022 wurden 25 Millionen US-Dollar eingesammelt.
Tobias Hann befindet sich mittlerweile am Standort New York, von wo via Videokonferenz das folgende Interview geführt wurde.

Herr Hann, Sie sind kein Techniker, sondern haben einen wirtschaftlichen Hintergrund. Wie geht das zusammen mit so einem techniklastigen Unternehmen wie Mostly AI?

Ich bin jetzt seit über drei Jahren bei Mostly AI und habe keinen Engineering- und Data-Science-Background. Ich habe Wirtschaft studiert – sowohl in Österreich als auch in den USA – und im Management Consulting und bei unterschiedlichen Startups gearbeitet, bevor ich zu Mostly AI dazugestoßen bin. Damals waren wir noch zehn Leute, heute haben wir bereit über 50 Mitarbeitende. Es stimmt, ich war der erste »Senior Business Guy« und habe dann vor etwas mehr als zwei Jahren von einem der Co-Founder den CEO-Posten übernommen. Ich bin allerdings jemand, der sehr, sehr technisch ist für einen Wirtschaftler und im Herzen bin ich ein Data Nerd. Das braucht man natürlich in dem Bereich, in dem wir uns beschäftigen.

Synthetisch generierte Daten: wie erzeugt man diese? Kann man auch unstrukturierte Daten erzeugen? Was kann man diesen Daten machen? Was nicht?

Sie haben es schon angesprochen, wir unterscheiden zwischen strukturierten und unstrukturierten Daten. Synthetische Daten sind künstlich erstellte Daten. Der Begriff ist nicht neu. Das Konzept von künstlich erstellten Daten gibt es seit vielen Jahren. Wenn ich in Excel eine Random-Zahlen-Funktion nutze und immer wieder beliebige Zahlen erstellen lasse, sind das auch künstlich generierte Daten. Das ist jedoch nicht innovativ. Was jedoch in den letzten Jahren gekommen ist und das Ganze viel spannender macht, ist, dass synthetischen Daten mittels Machine-Learning-Algorithmen erstellt werden – sowohl im Bereich der strukturierten als auch der unstrukturierten Daten . Wir beschäftigen uns jedoch nur mit strukturierten Daten, also allem, was man in Tabellenformen darstellen kann – Zahlen, Kategorien etc. Das ist für Unternehmen, die viele Daten sammeln, natürlich sehr relevant. Gerade im Bereich der Banken, Versicherungen, Telekommunikationsprovider etc. werden sehr viele Daten beispielsweise von Endkunden gesammelt, diese Daten sind sehr sensibel. In Österreich und der EU gilt die Datenschutzgrundverordnung, die einem Unternehmen genau vorgibt, was es mit diesen Daten machen und nicht machen kann. So kann man die Daten nicht einfach mit Dritten teilen, ohne die volle Zustimmung der Kunden zu haben.

Selbst interne Analysen kann ich oft nicht machen, wenn ich keine Zustimmung vom Kunden habe. Hier kommen unsere synthetischen Daten ins Spiel, denn bei uns liegt der Mehrwert tatsächlich primär im Bereich des Datenschutzes, weil die von uns erstellten synthetischen Daten vollständig anonym sind und somit nicht mehr dem Datenschutz beziehungsweise der Datenschutzgrundverordnung unterliegen. Diese Daten können frei geteilt werden, sie können genutzt werden, um Innovationen zu betreiben, um mit Partnern zusammenzuarbeiten etc. Zudem sind diese Daten auch flexibler.

Der Vorteil von synthetischen, also künstlich erstellten Daten ist eben, dass sie mittels Machine-Learning- Algorithmen erstellt werden. Es ist möglich, in den Prozess der Daten-Synthetisierung einzugreifen und ihn zu modifizieren. Zum Beispiel kann ich Daten ausgleichen, in denen ein Bias enthalten war, die also eine Verzerrung oder Voreingenommenheit wiedergeben. So ist es möglich, dass unsere Kunden relevantere Daten erhalten, was wiederum speziell für das Training von ML-Modellen für AI oder Software-Testing wichtig ist. Gerade in diesem Bereich brauche ich sehr viele Daten, um Applikationen ausreichend testen zu können. In der Vergangenheit haben Firmen dafür mitunter Produktivdaten verwendet, was man natürlich nicht machen sollte. Besser sind künstliche, mittels Regeln erstellte Daten. Das ist sehr simpel, doch auch diese Daten sind nicht sehr wertvoll für solche Tests, da sie nicht immer alles abdecken. Hier sind synthetische Daten eine gute Alternative.
Was kann man nun mit synthetischen Daten machen? Ich kann aufbauend auf den synthetischen Daten Modelle bauen, ich kann Analysen machen und diese wieder auf die echten Daten anwenden. Wenn ich jedoch einen echten Kunden erreichen will, brauche ich natürlich irgendwann die Echtdaten.

Wie stellt man fest, dass ein Bias da ist?

Zunächst müssen die Unternehmen für sich festlegen, was fair und was nicht fair ist. Diese Aufgabe können wir nicht übernehmen. Es gibt unterschiedliche Definitionen von Fairness: manche Unternehmen wollen ein bestimmtes Bias korrigieren, andere finden, dass sie das akzeptieren müssen. Man kann mit entsprechenden Analysen feststellen, wo solche Verzerrungen in den Daten vorhanden sind und das ausgleichen. Wenn ich sehe, dass bei einem Datensatz von Einkommensdaten zum Beispiel Frauen weniger verdienen als Männer kann ich diese eine Variable so ausgleichen, dass im Schnitt Frauen in etwa gleich viel verdienen wie Männer. Das Spannende daran ist, dass eben nicht nur diese eine Variable von unserem System ausgeglichen wird, sondern alle anderen Variablen auch ausgeglichen werden, die indirekt Rückschlüsse darauf zulassen, dass Frauen weniger verdienen als Männer, weil sie etwa mehr in Teilzeit arbeiten. Darauf kann ich dann Modelle bauen, die eben kein Bias mehr aufweisen.

Sie haben gesagt, Unternehmen müssten festlegen, was für sie fair und was ist nicht fair ist. Haben Sie auch schon daran gedacht, diesbezüglich Philosophen oder Ethiker anzustellen?

Momentan überlassen wir es den Unternehmen, diese müssen Fairness für sich definieren. Viele Unternehmen bauen in Bezug auf Trustworthy AI eigene Abteilungen auf und stellen eigene Leute ein, weil es eben sehr komplexe Fragestellungen sind. Wir selbst haben bei uns keine Ethik-Angestellten und auch nicht vor, diesbezüglich einzustellen. Wir haben aber Leute, die sich mit dem Thema beschäftigen, aber natürlich von der technischen Seite her kommend.

Tonic.ai, Synthesis.ai, Hazy oder Gretel sind einige Ihrer Mitbewerber. Was machen Sie anders als diese Firmen?

Die Mitbewerberliste ist mittlerweile sehr lang und es ist tatsächlich so, dass fast jedes Quartal neue Mitbewerber dazukommen. Was machen wir besser? Das Grundthema bei synthetischen Daten ist natürlich die Qualität – also wie repräsentativ sind diese Daten und wie sehr helfen sie, bei Analysen Ergebnisse zu erzielen, die dem entsprechen, was ich auch mit Echtdaten bekommen hätte. Da gibt es große Unterschiede. Es gibt etwa Open-Source-Lösungen, die nichts kosten. Hier wird man sehr schnell feststellen, dass die Qualität der Daten ab einer gewissen Komplexität einfach nicht mithalten kann mit dem, was wir machen. Wenn man wirklich synthetische Daten produktiv einsetzen möchte, wird man schnell realisieren, dass man einen kommerziellen Anbieter wie uns braucht. Wir liefern im Vergleich zu unseren Mitbewerbern drei bis zehnfach genauere synthetische Daten, was wir in unseren Benchmark Studien gezeigt haben. Zudem haben wir große namhafte Kunden, wir verstehen es mit Banken und Versicherungen zu arbeiten, verstehen die Prozesse, die dort ablaufen. Wir haben externe Zertifizierungen wie ISO 27001 etc.

Wie darf man sich dann ein Datensynthetisierungsprojekt vorstellen? Wie lange braucht das?

Grundsätzlich haben wir auf der Plattform ein Software-Tool, das üblicherweise beim Kunden vor Ort installiert wird. Die Kunden können dann autonom ihre Daten synthetisieren. Das ist kein Projektgeschäft in dem Sinne, sondern ein Software-Tool, das wir zur Verfügung stellen. Wir unterstützen unsere Kunden beim Training und bieten Knowhow. Die Idee ist jedoch, dass die Kunden die Synthetisierung im Wesentlichen selbst machen können. Unser Ziel ist, unsere Plattform in der Bedienung so einfach wie möglich zu machen und von der Funktionalität so viel wie möglich zu automatisieren.

Übrigens: Die Software läuft beim Kunden oder bei uns der Cloud. Die Kunden synthetisieren ihre eigenen Daten und die Daten bleiben auch beim Kunden. Wir haben keinen Zugriff auf die Daten. Die Kunden haben die volle Hoheit über ihre Daten und entscheiden, was sie mit ihnen machen wollen, wo sie die synthetischen Daten einsetzen, ob sie sie intern verwenden, für Testing oder ob sie sie an Dritte weitergeben.

Sind weitere Niederlassungen geplant?

Aktuell nicht. Wir sehen ganz aktuell Interesse in Japan bei Einzelprojekten mit potenziellen Kunden. Aktuell bedienen wir aus Österreich heraus Europa und von New York heraus die USA .

Sie sind in der Banken- und Versicherungsbranche tätig. Planen Sie in andere Branchen vorzudringen und falls ja, welche?

Wir haben eine lange Historie im Bereich von Versicherungen, aber nicht ausschließlich. Auch im Telekommunikationsbereich, im öffentlichen Bereich haben wir Kunden und Projekte. Im Ärztebereich haben wir mit dem Joint Research Center der Europäischen Kommission im Bereich Gesundheitsdaten ein Forschungsprojekt abgeschlossen. Wir sind also etwas breiter aufgestellt. Für uns als Startup gilt natürlich immer: Wo setzt man den Fokus? Was geht man zuerst an? Alles auf einmal funktioniert nicht. Bei uns waren Banken und Versicherungen der Start. Wir sind aber davon überzeugt, dass in Zukunft jedes Unternehmen ab einer gewissen Größe mit synthetischen Daten arbeiten wird. Und zwar über alle Branche hinweg. Unser Ziel ist hier künftig immer mehr Industrien mit unserer Softwarelösung versorgen zu können.

Arbeiten Sie auch mit Regierungen zusammen? Vielleicht auch im Sicherheitsbereich?

Das tun wir nicht, im Bereich Überwachung sind wir nicht unterwegs. Wir sehen immer mehr Interesse im Public Sector, also von Organisationen, Instituten, die Daten haben und dabei sind ihre Datenschätze ein wenig für die Öffentlichkeit zu öffnen – da sehen wir viel Potenzial.

Wohin geht die Entwicklung mit synthetisch generierten Daten?

In der Vergangenheit haben wir gezeigt, dass synthetische Daten quasi eine Eins-zu-eins-Kopie von den Echtdaten sind und als Ersatz für diese verwendet werden können. Wohin geht die Reise? In Richtung Modifizierung der Daten während des Synthetisierungsvorgangs, um für Unternehmen relevantere Daten zu erstellen. Die Korrektur von Biases ist ein Beispiel. Ein anderes Beispiel ist Software Testing. Hier möchte man vielleicht noch kreativere Daten erstellen, um mehr Testfälle abzudecken, um Bugs zu identifizieren, die ich vielleicht nicht gefunden hätte, wenn ich einfach nur Produktivdaten verwendet hätte.

Experimentieren Sie auch mit Quantencomputern?

Aktuell nicht. Unsere Arbeit ist sehr rechenintensiv, das heißt die Algorithmen, die hier zum Einsatz kommen, brauchen viele Computing-Ressourcen. Aus diesem Blickwinkel gibt es durchaus Potenzial mit Quantum Machine Learning für Effizienzgewinne. Das ist jedoch alles noch in einem sehr frühen Stadium und von daher für uns derzeit noch nicht relevant.