Wie wird richtig anonymisiert? 

Das Volumen an personenbezogenen Daten explodiert förmlich. Nicht zuletzt ist das Angebot von personenbezogenen Daten durch die heutigen KI-unterstützen Tools enorm gestiegen. Fest steht, dass Anonymisierung dazu dienen kann, die Risiken für betroffene Personen zu minimieren. [...]

Praxisleitfaden 

Die DSGVO-zt GmbH hat zur Anonymisierung einen Praxisleitfaden. Dieser kann um 75 Euro unter folgendem Link bestellt werden: Praxisleitfaden Anonymisierung. 

  1. Anforderungen an die Anonymisierung  
  1. Wann ist eine Anonymisierung hinreichend? 

Wann eine Anonymisierung als ausreichend angesehen werden kann, lässt die DSGVO offen. Erwägungsgrund 26 Satz 3 und 4 enthält folgende Hinweise: 

  • „Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, wie beispielsweise das Aussondern.  
  • Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die  
  • Kosten der Identifizierung und  
  • der dafür erforderliche Zeitaufwand 

herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind“.  

  1. Abgrenzung zur Pseudonymisierung 

Von anonymisierten Daten abzugrenzen sind insbesondere pseudonymisierte Daten. Darunter versteht die DSGVO „die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden. Die Ausführungen zur Pseudonymisierung lesen Sie im nächsten Tagebuch-Kapitel. 

Während die Anonymisierung die Entfernung des Personenbezugs zum Ziel hat, bleibt im Rahmen der Pseudonymisierung eine Re-Identifizierung der betroffenen Personen möglich. Die für die Re-Identifikation erforderlichen Daten müssen jedoch gesondert aufbewahrt und durch technische/organisatorische Maßnahmen geschützt werden. 

  1. Anonymisierung als Verarbeitung 
  1. Allgemeines zur Anonymisierung 
  1. Begriff der Verarbeitung 

Art. 4 Nr. 2 DSGVO definiert den Begriff der Verarbeitung als „jeden mit oder ohne Hilfe automatisierter Verfahren ausgeführten Vorgang oder jede solche Vorgangsreihe im Zusammenhang mit personenbezogenen Daten“ und nennt einige nicht abschließende Regelbeispiele für Verarbeitungsvorgänge. Der Begriff wird weit verstanden und umfasst letztlich jeden Umgang mit personenbezogenen Daten.  

  1. Anonymisierung als Verarbeitung 

Bei der Anonymisierung handelt es sich um einen Vorgang, der darauf gerichtet ist, dass die personenbezogenen Daten ihren Personenbezug verlieren. Dies legt den Schluss nahe, dass die personenbezogenen Daten durch die Anonymisierung – in ihrer Personenbezogenheit – verändert werden (à Art. 4 Nr. 2 Abs. 7 DSGVO).  

Die Anonymisierung stellt eine Verarbeitung dar und bedarf als solche einer Rechtsgrundlage. 

  1. Re-Identifizierung 

Wenn sich ursprünglich als anonym eingestufte Daten als personenbeziehbar erweisen, spricht man von einer Re-Identifizierung. Dies könnte aufgrund neu entwickelter technischer oder mathematischer Verfahren möglich sein.  

In diesem Fall können die betreffenden Daten nicht mehr als anonym bezeichnet werden und es gelten alle Anforderungen des Datenschutzrechts wie z.B: 

  • Gewährleistung der Sicherheit der Verarbeitung 
  • Durchführung einer Datenschutz-Folgenabschätzung  
  • Gewährleistung der Rechte der Betroffenen 
  • Angabe der Rechtsgrundlage für die Verarbeitung 
  1. Anonymisierung als Löschung 

Soweit personenbezogene Daten einer frühzeitigen Löschung unterliegen, können diese anonymisiert werden (à Art. 6 Abs. 1 lit. c) DSGVO). Die Löschungspflicht von personenbezogenen Daten läßt sich auch durch die Anonymisierung erfüllen.  

  • Zunächst ist hinsichtlich der Fragestellung zwischen der Verpflichtung zur Speicherbegrenzung und dem Recht auf Löschung nach zu unterscheiden. Art. 5 Abs. 1 lit. e) DSGVO verlangt nicht ausdrücklich die Löschung von (personenbezogenen) Daten. Die Löschung der Daten ist nach der Systematik der DSGVO nur eine von mehreren Möglichkeiten, die Anforderungen des Art. 5 der DSGVO zu erfüllen. Eine Löschung ist nicht erforderlich, wenn der Personenbezug durch Anonymisierung wirksam beseitigt werden kann. 
  • Davon zu unterscheiden ist das Recht auf Löschung nach Art. 17. Danach hat der Verantwortliche personenbezogene Daten unverzüglich zu löschen, wenn sie für die Zwecke, für die sie erhoben oder auf sonstige Weise verarbeitet wurden, nicht mehr erforderlich sind. Art. 17 nimmt damit Bezug auf die festgelegten Grundsätze der Zweckbindung und der Datenminimierung. Der Grundsatz der Speicherbegrenzung kann daher Grundlage für einen Löschungsanspruch sein. Anonyme Informationen sind nach Erwägungsgrund 26 der DSGVO solche Informationen, die sich nicht auf eine bestimmte oder bestimmbare natürliche Person beziehen, oder personenbezogene Daten, die anonymisiert wurden. Für anonymisierte Daten gelten die Grundsätze des Datenschutzes nicht. 
  • Dass es sich bei Löschung und Vernichtung um zwei alternative Verarbeitungsvorgänge handelt, wird auch durch die Formulierung „Löschen oder Vernichten“ in Art. 4 deutlich. Diese Argumentation lässt sich auch auf den Löschungsanspruch übertragen. Aus Sicht der BfDI kann die Pflicht zur Löschung personenbezogener Daten nur dann durch Anonymisierung erfüllt werden, wenn die personenbezogenen Daten rechtmäßig erhoben wurden (vgl. Art. 17 Abs. 1 lit. a) DSGVO). 
  1. Risiko einer Anonymisierung 

Bei der Anonymisierung muss der Verantwortliche in der Regel von einem hohen Risiko ausgehen, da bei der Anonymisierung gerade regelmäßig das Kriterium „umfangreiche Verarbeitung“ und das Kriterium „neue Technologien“ zutrifft. 

  • Die Notwendigkeit der Durchführung einer Datenschutz-Folgenabschätzung ergibt sich daraus, dass die Erstellung eines anonymisierten Datenbestands eine komplexe Aufgabe für den Verantwortlichen darstellt und viele Fehlerquellen birgt.  
  • Dabei muss der Verantwortliche auch die Folgen einer möglichen Re-Identifikation (siehe zuvor) in die Überlegungen einzubeziehen. 
  • Vor der Durchführung einer Anonymisierung ist in der Regel eine Datenschutz-Folgenabschätzung durchzuführen. 
  1. Technische Anonymisierungs-Werkzeuge 
  1. Anonymisierung von strukturierten Daten 

Strukturierte Datensätze bestehen aus einzelnen Datenelementen. In der tabellarischen Darstellung eines Datensatzes entspricht ein Datenpunkt einer Zeile der Tabelle. Jeder Datenpunkt des Datensatzes enthält Attribute, die konkrete Werte besitzen.  

Es gibt eine Reihe von Verfahren, mit denen strukturierte Daten anonymisiert werden können. Welches Verfahren in Frage kommt, hängt unter anderem von der Art der zu anonymisierenden Daten, dem geplanten Verwendungszweck der Daten sowie den technischen und organisatorischen Rahmenbedingungen der Datennutzung ab. Die Art der Veränderung hängt vom gewählten Verfahren ab. 

  1. Verfahren der Randomisierung 

Im Wesentlichen werden bei der Randomisierung die Werte zufällig verändert. Diese Veränderung führt dazu, dass ein Zusammenhang zwischen verschiedenen Merkmalen aufgehoben wird. Dadurch werden Inferenzrisiken reduziert.  

  1. Stochastische Überlagerung 

Die Stochastische Überlagerung ändert die Werte einzelner Merkmale in einem Datensatz. Voraussetzung ist, dass die Werte numerisch, d.h. quantitativ sind. Weiterhin wird vorausgesetzt, dass die Originaldaten nach Anwendung des Verfahrens gelöscht werden, so dass die Veränderung nicht nachvollzogen werden kann. 

  1. Vertauschung 

Durch die Vertauschung werden die Merkmalswerte nicht verändert. Stattdessen werden die Werte zwischen den Datensätzen vertauscht. Das Verfahren eignet sich daher sowohl für quantitative Daten (Ratings, Listen) als auch für qualitative Daten. Voraussetzung ist, dass die Originaldaten nach der Anwendung gelöscht werden.  

Nicht jede Vertauschung führt automatisch zu einer Anonymisierung. Es ist darauf zu darauf zu achten, dass die Merkmale vertauscht werden, die ursächlich für den Personenbezug sind. 

  1. Anonymisierung durch Aggregation  

Aggregationsbasierte Verfahren gruppieren einzelne Datenpunkte des Ursprungsdatensatzes. Die Gruppierung erfolgt dabei so, dass die Nutzbarkeit der Daten weitestgehend erhalten bleibt, aber das Risiko der Re-Identifikation und der Bestimmung von Attributwerten einzelner Personen reduziert wird. Die Aggregationsbasierte Anonymisierung wird seit langem angewandt und u.a. von der Statistik Austria genutzt. 

Üblicherweise werden bei diesen Verfahren identifizierende Merkmale entweder generalisiert oder mittels sogenannter Mikroaggregation innerhalb der Gruppen durch repräsentative Werte ersetzt.  

Generalisierung  

Bei der Generalisierung wird beispielsweise das genaue Alter durch Fünfjahresintervalle ersetzt oder der genaue Beruf durch eine Qualifikationsstufe. Hier richtet die Gruppierung sich nach den vergröberten Merkmalen.  

Mikroaggregation 

Bei der Mikroaggregation hingegen werden grundsätzlich zuerst die Gruppen festgelegt und danach wird beispielsweise das individuelle Alter durch den Median des Alters innerhalb der Gruppe ersetzt. 

U.a. gibt es folgende beliebte Aggregationsverfahren: 

  • Mondrian-Algorithmus 

Einer der populärsten Ansätze ist der sogenannte »Mondrian-Algorithmus«. Dieser gruppiert zunächst alle Datenpunkte in eine einzige Gruppe. Diese wird dann unter Berücksichtigung des gewählten Anonymitätskriteriums  in zwei neue Gruppen aufgeteilt. Für jede so entstandene Gruppe wird der Prozess der Teilung wiederholt, bis die neu entstandenen Gruppen das Anonymitätskriterium erfüllen. 

  • MDAV-Methode 

Ein weiterer etablierter Ansatz ist die MDAV-Methode (MDAV steht für »Maximum Distance to Average Vector«), die in den Bereich der Mikroaggregation fällt und daher insbesondere für numerische Attribute geeignet ist. Hierbei werden die Datenpunkte nach ihrem Abstand zueinander gruppiert. Dazu werden zunächst Gruppen gebildet, die möglichst weit von der »Mitte« entfernt sind, so dass am Ende keine Datenpunkte am »Rand« übrigbleiben.  

  1. Anonymisierung durch Rauschen 

Prinzip des Rauschens 

Bei der rauschbasierten Anonymisierung werden die Attributwerte eines Datensatzes durch künstlich erzeugtes statistisches Rauschen zufällig verändert. Dies führt dazu, dass der wahre Wert eines bestimmten Attributs nicht mehr mit Sicherheit bestimmt werden kann. Wie bei anderen Anonymisierungsverfahren wird auch hier die Nutzbarkeit der Daten eingeschränkt, da der Datensatz verfälscht wird.  

  1. Anonymisierung durch Synthese 

Eine Alternative zur Verwendung personenbezogener Daten ist die Verwendung synthetischer Daten. Synthetische Daten sind im Gegensatz zu personenbezogenen Daten nicht auf bestimmte natürliche Personen bezogen. Dementsprechend liefern sie auch keine Informationen über natürliche Personen. Vielmehr handelt es sich bei synthetischen Daten um Daten, die durch ein Berechnungsverfahren erzeugt werden. 

  1. Prinzip der Synthese 

Die Datensynthese anonymisiert Daten in einem zweistufigen Verfahren: 

  • Zunächst wird ein statistisches Synthesemodell an die Originaldaten angepasst. 
  • Mit Hilfe dieses Synthesemodells werden neue, synthetische Daten erzeugt. 

  1. Angriffe auf anonymisierte Daten 
  1. Angreifermodell 

Ein Angreifer-Modell beschreibt also eine Methode, mit der geprüft wird, ob eine Re-Identifikation von anonymisierten Daten möglich ist. Erst wenn ein solcher – ernsthalt durchgeführter – Versuch scheitert, kann von anonymen Daten gesprochen werden. 

Ein Angreifer kann verschiedene Ziele verfolgen, um Personen in einem anonymisierten Datensatz zu re-identifizieren. Je wertvoller die Daten für den Angreifer sind, desto mehr Fachwissen und Ressourcen müssen vorausgesetzt werden. Dabei sind nicht alle theoretisch denkbaren oder nicht auszuschließenden technischen Möglichkeiten oder möglicherweise vorhandenes Wissen einzubeziehen, sondern die wahrscheinlichsten. 

  1. Angriffsmethoden 

Angriffsmethoden, mit denen diese Ziele erreicht werden können, müssen in der Regel an die jeweils Anonymisierungsverfahren angepasst werden: So müssen durch Datensynthese anonymisierte Datensätze anders angegriffen werden als solche, die durch Aggregation oder Hinzufügen von Rauschen erzeugt wurden. Zudem benötigt der Angreifer in der Regel Kontextinformationen über einzelne Personen, die er mit den anonymisierten Daten abgleichen kann.  

Grundsätzlich ist es für einen Angreifer umso einfacher, Personen in einem anonymisierten einem anonymisierten Datensatz zu de-anonymisieren, je mehr relevante Kontextinformationen er über die Personen hat und je genauer er das zur Anonymisierung verwendete Verfahren kennt. Die Geheimhaltung des Anonymisierungsverfahrens kann daher eine sinnvolle Sicherheitsmaßnahme sein; die Kenntnis des Verfahrens allein dürfte die Wahrscheinlichkeit einer erfolgreichen De-Anonymisierung für einen Angreifer jedoch nicht wesentlich erhöhen. 

Um eine quantitative Aussage über die Wahrscheinlichkeit der Re-Identifikation einer Person zu machen und Attributwerten der Person zu treffen, wird häufig ein formales Angriffsmodell definiert und mit einem Testdatensatz definiert und mit einem Testdatensatz evaluiert. Ein solches Modell kann für einen gegebenen Datensatz mit unterschiedlichen Metriken evaluieren werden. 

  1. Best Practices 
  1. Anonymisierung Vorgehensmodell 

In diesem Kapitel wird ein Vorgehensmodell für die Anonymisierung erläutert. 

Einen Überblick über die in der Regel einschlägigen Rechtsgrundlagen gibt die folgende Tabelle. Welche Rechtsgrundlage eine konkrete Anonymisierung erlaubt, ist im Einzelfall zu prüfen. 

  1. Tools zur Anonymisierung 

 Im Folgenden werden einige Tools zur Anonymisierung aufgelistet: 

Tool Institution Country Platform Release LastUpdate License Link 
Amnesia TMF – Technologie- und Methodenplattform GER     Amnesia 
Anon University of Klagenfurt AUT Java 2012   ANON 
ARX BIH@Charite GER Java 2012 2022 Apache ARX  
Materialise Mimics 21.0 UN Global Impact      Materialise Mimics 21.0 
Open  
Anonymyzer 
Universyty of  
Vienna 
AUT Java 2008 2009 Open Anonymizer download | SourceForge.net 
Quali Anon Universität Bremen GER     QualiAnon 
PrioPrivacy Research Stidio Data Science AUT Java 2019 2021  PrioPrivacy 
Projekt A ainovi GmbH GER    0-15€ / Nutzer/ Monat Projekt A 
sdcMicro Statistics Austria AUT 2007 2021 GPL 2 Das umfassende R-Archiv-Netzwerk (r-project.org) 
Tiamat Purdue University USA Java 2009  „TIAMAT”  
  1. Quellenangaben 

Positionspapier-Anonymisierung.pdf des  

ISO 29100:2011; Petrlic/Sorge, Datenschutz: Einführung in technischen Datenschutz, Datenschutzrecht und angewandte Kryptographie, 2017, S. 13; Paal/Pauly/Ernst, DS-GVO, Art. 4 Rn. 48 

BDSG Bundesdatenschutzgesetz Deutschland 

Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens (bitkom.org) 

SDS_Studie_Praxisleitfaden-Anonymisieren-Web_01.pdf (stiftungdatenschutz.org) 

Arbeitshilfe zur Pseudonymisierung/Anonymisierung (gesundheitsdatenschutz.org) 

  1. Schlussbemerkung  

Anonymisierung ist ein wichtiges Verfahren, um die Risiken für betroffene Personen bei der Verarbeitung ihrer personenbezogenen Daten zu verringern. Daher sollte sie immer eingesetzt werden, wo immer es sinnvoll ist. 

Es gibt eine Vielzahl von Verfahren, mit denen Daten in der Praxis anonymisiert werden können. Welches Verfahren im Einzelfall geeignet ist, hängt im Wesentlichen vom Format der zu schützenden Daten und dem Verwendungszweck ab. Je nach Anwendung können statische, dynamische oder interaktive Verfahren eingesetzt werden. Neben der technischen Eignung des Anonymisierungsverfahrens sollte immer auch geprüft werden, ob das Verfahren geeignet ist, alle bekannten und relevanten Risiken für die Personen, deren Daten anonymisiert werden sollen, wirksam zu reduzieren

Das Tagebuch wird zur Verfügung gestellt von:  


Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*