Anonymisierte Daten für KI Nutzen

Beim Training einer KI müssen personenbezogene Daten aus Datenschutzgründen anonymisiert werden. Im Interview 
spricht Matthias Liechtenthaler vom BRZ über die Herausforderungen, die dabei zu beachten sind. [...]

Matthias Liechtenthaler ist Leiter Digital Government & Innovation beim Bundesrechenzentrum (BRZ). (c) BRZ

Woran arbeiten Sie gerade?

An der Frage, wie die automatisierte Anonymisierung von personenbezogenen Daten helfen kann, dass KI und Machine Learning besser werden. Oder anders formuliert: Wie kann ein Chatbot, der einem Bürger, einer Bürgerin Auskunft geben soll, auf eine KI zugreifen? Diese KI muss aber Zugriff auf entsprechende Informationen haben, denn ohne dieses kann der Chatbot auch nur ein paar Standardauskünfte geben. Grundsätzlich gäbe es schon eine Menge Content, nämlich Fall-Daten, wie die Frage nach dem richtigen Vorgehen, wenn man seinen Führerschein verloren hat. Das wäre eine Standardfrage, die kann ein Chatbot beantworten, dazu brauche ich keine KI. Wird es aber ein bisschen spezieller – handelt es sich z.B. es um einen Führerschein aus Ungarn nur für spezielle Fahrzeugklassen –, dann steigt der Chatbot aus, wenn er nicht mit vielen Lerninhalten gefüttert wurde.

Ein Ergebnis eines Workshops mit Kunden letztes Jahr bei uns im Haus war, dass die stärker automatisierte Anonymisierung sicherlich dazu beitragen würde, mehr Lerninhalte zu bekommen, damit eine KI – via Chatbot – bessere Auskünfte geben kann. Deswegen haben wir uns dieses Themas angenommen. Es gibt z.B. im Justizumfeld ein Team von Experten, die zu veröffentlichende höchstrichterliche Entscheidungen anonymisieren – allerdings hauptsächlich manuell. Diese Experten sorgen dafür, dass diese Entscheide zunächst »pseudoanonymisiert« werden. Klarnamen und offensichtliche Bezüge, wie ein Aktenzeichen etc., werden gelöscht – aber nicht viel mehr. Das ist eine »Pseudoanonymisierung«, keine echte Anonymisierung, bei der eine Rückverfolgung auf den Klarnamen nicht möglich ist. Deswegen setzen wir uns für einen Anonymisierungsstandard ein. Zudem gibt es die Entscheidung der Datenschutzbehörde von Ende 2017, derzufolge die Löschung von Kundendaten von einem Speichermedium nicht nötig ist, sondern eine ausreichende Anonymisierung genügt.

Das ist dann DSGVO-konform?

Ja, und wenn die Daten anonymisiert sind, dann sind es ja keine personenbezogenen Daten mehr und damit kann man arbeiten. Das ist rechtlich in Ordnung. Würde der Staat jedoch diese durch Anonymisierung erlangten Daten großflächig verkaufen, wäre das rechtlich wohl nicht mehr gedeckt. Hier gibt es einen großen Graubereich, keine Gesetze und auch noch keine höchstrichterlichen Entscheidungen.

Ist die Herausforderung bei der Anonymisierung eher juristischer oder technischer Art?

Es ist eher eine juristische Frage: »Was darf ich dann damit machen?« Ich meine, dass es auch juristisch sinnvoll wäre, wenn der Staat seine Bürger auf digitale Weise besser informiert – indem man zum Beispiel nachts um 3 Uhr eine komplexe Frage an den Führerschein-Chatbot stellt und eine zufriedenstellende Antwort erhält. Ob das einer höchstrichterlichen Entscheidungen standhält, ist eine andere Frage. Die Herausforderung ist, dass die Datenschutzbehörde einen unbestimmten Rechtsbegriff gesetzt hat, indem sie sagt, es ist dann ausreichend anonymisiert, wenn die Rückverfolgung der Daten einen unverhältnismäßig hohen Aufwand darstellt.

Pseudoanonymisierung ist also in Ordnung, wenn es sehr kompliziert ist, an die Original­daten heranzukommen?

Ja, nach der Datenschutzbehörde muss eine absolute Irreversibilität gar nicht zu 100 Prozent gegeben sein. Wo allerdings diese Verhältnismäßigkeit beim Aufwand anfängt und wo sie aufhört, ist nicht definiert. Wir versuchen diese Grauzone einzugrenzen – aber unsere Kernaufgabe ist der technische Bereich.

Die erste Herausforderung ist jemanden zu finden, der Zugriff auf Daten hat, die noch nicht anonymisiert sind. Doch auch wenn die Daten im BRZ liegen, brauchen wir dazu eine Genehmigung des Kunden. Aber gehen wir davon aus, dass die Daten bei einer anderen Behörde liegen. Dann müssen wir diese Behörde in die Lage versetzen, zunächst ihre Daten zu pseudoanonymisieren, also die Klarnamen zu streichen. Wir müssen ihnen über die Firewall hinweg eine Software senden, die genau das macht, ohne dass wir Zugriff auf diese Datenbank haben. So kann die Behörde eine Pseudoanonymisierung selbst durchführen. Dann werden diese »initialgeschwärzten« Daten quasi in eine Quarantänestation (Datenquarantänemodell) gebracht, wo wir auch keinen Zugriff auf die Daten haben, diese Quarantänestation jedoch mit trojanischen Pferden befeuern, um herauszufinden, wie anonymisiert die Daten wirklich sind bzw. wie leicht sich doch etwas rückverfolgen lässt.

Nehmen Sie zum Beispiel einen Unfallbericht mit einem roten Ferrari in der Nähe eines kleinen Ortes im Waldviertel. Da wird es – anders als vielleicht in Wien – nicht viele Ferraris geben. Dann entwickeln wir eine Systematik des Anonymisierens, wobei wir allerdings sinnloses Anonymisieren vermeiden. Wenn Sie alle Merkmale wegnehmen, kann man sagen, dass der Himmel heute blau ist. Diese Information bringt gar nichts und ist kein Lern-Content für eine KI. Deswegen muss ich versuchen die Spitze an einem Maximum an Anonymisierung zu erreichen – ohne zu überanonymisieren.

Daten, die prominent hervorstechen, sind also weniger geeignet?

Ja. Die Frage ist, ob es für das Verständnis dieses Unfallberichts notwendig ist, dass ein roter Ferrari involviert war? Oder reicht die Information, dass es ein Sportwagen war – ob jetzt rot oder nicht, ist wahrscheinlich egal. Wenn die hohe Geschwindigkeit ein Thema war und man den vielleicht sehr kleinen Ort nennt, woher der Fahrer stammt, dann wird man Rückschlüsse ziehen können, wer dort einen Sportwagen besitzt. Wenn man jedoch sagt »im Bezirk Zwettl«, »im Waldviertel« oder vielleicht sogar nur »in Niederösterreich«, weil der Unfall nicht so ortsspezifisch ist, wird es weniger rückverfolgbar (z. B. wird sich ein Unfall am Dachstein nicht genau so im Marchfeld ereignen können).

Hier machen wir konkrete Vorschläge und das leistet unsere Lösung. Sie dockt beim Kunden an, transferiert die Daten in eine Quarantänestation, wir machen Anonymisierungsvorschläge, und wir versuchen neben dieser technischen Lösung das Ganze auch grob rechtlich zu fassen und den Graubereich stärker einzuengen. Die Herausforderung ist dabei, dass die Technologie sich weiterentwickelt. Das, was man heute nur mit relativ unverhältnismäßig hohem Aufwand herausfinden kann, ist vielleicht in zwei oder fünf Jahren – Stichwort Quantencomputing – spielend leicht für jeden herauszufinden.

Arbeiten Sie mit der österreichischen Datenschutzbehörde zusammen?

Denn nur diese weiß, wie weit die Anonymisierung gehen muss und trifft im Zweifelsfall die Entscheidungen. Unsere Vorgehensweise ist, dass wir eine Lösung zunächst positionieren und fertigstellen. Wir stellen die Lösung der Datenschutzbehörde demnächst vor. Wir haben selber natürlich auch Datenschutzexperten, trotzdem ist mir natürlich lieber, dass die Datenschutzbehörde eingebunden ist.

Haben sie auch die synthetische Erzeugung von Daten in Betracht gezogen?

Man muss vielleicht hier unterscheiden zwischen der synthetischen Erzeugung von relativ strukturierten oder semistrukturierten und unstrukturierten Daten. Selbst Experten, die sehr stark auf die Synthetisierung von Daten spezialisiert sind, scheitern bei der Datensynthetisierung, wenn es sich um unstrukturierte Daten handelt, wie das etwa ein Gerichtsurteil ist.

Mit wievielen Behörden arbeiten Sie zusammen, um die Daten zu bekommen?

Wir stehen mit vier Behörden im direkten Kontakt. Dabei gibt es eine Behörde, die auch höchstrichterliche Urteile anonymisiert. Die Herausforderung dabei: in bestimmten Urteilen muss bisweilen der Richtername erhalten bleiben. Der vorsitzende Richter X bleibt auch Richter X und wird nicht irgendwie verklausuliert, aber die Beteiligten müssen zumindest pseudoanonymisiert sein. Nur dann, wenn die Daten gut anonymisiert sind, kann man sie nutzen.

Auf der anderen Seite gibt es Fragen bezüglich der Anreicherung der Lerninhalte für eine künstliche Intelligenz: Was darf man in der Interaktion mit der Verwaltung alles wissen? Was könnte jemand fragen und wozu sollte es idealerweise eine standardisierte Antwort geben?
Überdies haben wir gerade im Verwaltungsbereich auch nach wie vor eine natürliche Intelligenz – die Festplatte oberhalb der Augenlider.

Wissenstransfer mit KI hilft auch dabei, das Knowhow der Mitarbeiter zu bewahren.

Genau. Im Bereich der Prozessautomatisierung geht es nicht nur um die Vollautomatisierung von einfachen Copy-Paste-Aufgaben, sondern es geht auch um die Teilautomatisierung von intelligenten Abläufen, also Aufgaben, wo Mitarbeiter in ihrem Bereich immer wieder Entscheidungen fällen, die eine intensive Beschäftigung mit der Materie, ein Nachdenken darüber erfordern. Gerade hier wollen wir Lerninhalte erzeugen, die reale Fälle abbilden. Hier sehen wir einen Riesenbedarf, weil in den nächsten sechs oder sieben Jahren die öffentliche Verwaltung eine der größten Pensionierungswellen erleben wird. Hierbei ist die Anonymisierung von Falldaten eine wesentliche Voraussetzung für den KI-unterstützten Wissenstransfer.

Zusätzlich stellt die Identifizierung von nicht gespeichertem Wissen Organisationen vor große Herausforderungen. Anonymisierte Daten bilden hier die Grundlage für ein domänenübergreifendes Wissensmodell, welches in weiterer Folge auch diese »White Spaces«, d.h. nicht gespeichertes Wissen, identifizieren soll.


Mehr Artikel

Be the first to comment

Leave a Reply

Your email address will not be published.


*