Wie wird richtig anonymisiert? 

Das Volumen an personenbezogenen Daten explodiert förmlich. Nicht zuletzt ist das Angebot von personenbezogenen Daten durch die heutigen KI-unterstützen Tools enorm gestiegen. Fest steht, dass Anonymisierung dazu dienen kann, die Risiken für betroffene Personen zu minimieren. [...]

Praxisleitfaden 

Die DSGVO-zt GmbH hat zur Anonymisierung einen Praxisleitfaden. Dieser kann um 75 Euro unter folgendem Link bestellt werden: Praxisleitfaden Anonymisierung. 

  1. Anforderungen an die Anonymisierung  
  1. Wann ist eine Anonymisierung hinreichend? 

Wann eine Anonymisierung als ausreichend angesehen werden kann, lässt die DSGVO offen. Erwägungsgrund 26 Satz 3 und 4 enthält folgende Hinweise: 

  • „Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren, wie beispielsweise das Aussondern.  
  • Bei der Feststellung, ob Mittel nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person genutzt werden, sollten alle objektiven Faktoren, wie die  
  • Kosten der Identifizierung und  
  • der dafür erforderliche Zeitaufwand 

herangezogen werden, wobei die zum Zeitpunkt der Verarbeitung verfügbare Technologie und technologische Entwicklungen zu berücksichtigen sind“.  

  1. Abgrenzung zur Pseudonymisierung 

Von anonymisierten Daten abzugrenzen sind insbesondere pseudonymisierte Daten. Darunter versteht die DSGVO „die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden. Die Ausführungen zur Pseudonymisierung lesen Sie im nächsten Tagebuch-Kapitel. 

Während die Anonymisierung die Entfernung des Personenbezugs zum Ziel hat, bleibt im Rahmen der Pseudonymisierung eine Re-Identifizierung der betroffenen Personen möglich. Die für die Re-Identifikation erforderlichen Daten müssen jedoch gesondert aufbewahrt und durch technische/organisatorische Maßnahmen geschützt werden. 

  1. Anonymisierung als Verarbeitung 
  1. Allgemeines zur Anonymisierung 
  1. Begriff der Verarbeitung 

Art. 4 Nr. 2 DSGVO definiert den Begriff der Verarbeitung als „jeden mit oder ohne Hilfe automatisierter Verfahren ausgeführten Vorgang oder jede solche Vorgangsreihe im Zusammenhang mit personenbezogenen Daten“ und nennt einige nicht abschließende Regelbeispiele für Verarbeitungsvorgänge. Der Begriff wird weit verstanden und umfasst letztlich jeden Umgang mit personenbezogenen Daten.  

  1. Anonymisierung als Verarbeitung 

Bei der Anonymisierung handelt es sich um einen Vorgang, der darauf gerichtet ist, dass die personenbezogenen Daten ihren Personenbezug verlieren. Dies legt den Schluss nahe, dass die personenbezogenen Daten durch die Anonymisierung – in ihrer Personenbezogenheit – verändert werden (à Art. 4 Nr. 2 Abs. 7 DSGVO).  

Die Anonymisierung stellt eine Verarbeitung dar und bedarf als solche einer Rechtsgrundlage. 

  1. Re-Identifizierung 

Wenn sich ursprünglich als anonym eingestufte Daten als personenbeziehbar erweisen, spricht man von einer Re-Identifizierung. Dies könnte aufgrund neu entwickelter technischer oder mathematischer Verfahren möglich sein.  

In diesem Fall können die betreffenden Daten nicht mehr als anonym bezeichnet werden und es gelten alle Anforderungen des Datenschutzrechts wie z.B: 

  • Gewährleistung der Sicherheit der Verarbeitung 
  • Durchführung einer Datenschutz-Folgenabschätzung  
  • Gewährleistung der Rechte der Betroffenen 
  • Angabe der Rechtsgrundlage für die Verarbeitung 
  1. Anonymisierung als Löschung 

Soweit personenbezogene Daten einer frühzeitigen Löschung unterliegen, können diese anonymisiert werden (à Art. 6 Abs. 1 lit. c) DSGVO). Die Löschungspflicht von personenbezogenen Daten läßt sich auch durch die Anonymisierung erfüllen.  

  • Zunächst ist hinsichtlich der Fragestellung zwischen der Verpflichtung zur Speicherbegrenzung und dem Recht auf Löschung nach zu unterscheiden. Art. 5 Abs. 1 lit. e) DSGVO verlangt nicht ausdrücklich die Löschung von (personenbezogenen) Daten. Die Löschung der Daten ist nach der Systematik der DSGVO nur eine von mehreren Möglichkeiten, die Anforderungen des Art. 5 der DSGVO zu erfüllen. Eine Löschung ist nicht erforderlich, wenn der Personenbezug durch Anonymisierung wirksam beseitigt werden kann. 
  • Davon zu unterscheiden ist das Recht auf Löschung nach Art. 17. Danach hat der Verantwortliche personenbezogene Daten unverzüglich zu löschen, wenn sie für die Zwecke, für die sie erhoben oder auf sonstige Weise verarbeitet wurden, nicht mehr erforderlich sind. Art. 17 nimmt damit Bezug auf die festgelegten Grundsätze der Zweckbindung und der Datenminimierung. Der Grundsatz der Speicherbegrenzung kann daher Grundlage für einen Löschungsanspruch sein. Anonyme Informationen sind nach Erwägungsgrund 26 der DSGVO solche Informationen, die sich nicht auf eine bestimmte oder bestimmbare natürliche Person beziehen, oder personenbezogene Daten, die anonymisiert wurden. Für anonymisierte Daten gelten die Grundsätze des Datenschutzes nicht. 
  • Dass es sich bei Löschung und Vernichtung um zwei alternative Verarbeitungsvorgänge handelt, wird auch durch die Formulierung „Löschen oder Vernichten“ in Art. 4 deutlich. Diese Argumentation lässt sich auch auf den Löschungsanspruch übertragen. Aus Sicht der BfDI kann die Pflicht zur Löschung personenbezogener Daten nur dann durch Anonymisierung erfüllt werden, wenn die personenbezogenen Daten rechtmäßig erhoben wurden (vgl. Art. 17 Abs. 1 lit. a) DSGVO). 
  1. Risiko einer Anonymisierung 

Bei der Anonymisierung muss der Verantwortliche in der Regel von einem hohen Risiko ausgehen, da bei der Anonymisierung gerade regelmäßig das Kriterium „umfangreiche Verarbeitung“ und das Kriterium „neue Technologien“ zutrifft. 

  • Die Notwendigkeit der Durchführung einer Datenschutz-Folgenabschätzung ergibt sich daraus, dass die Erstellung eines anonymisierten Datenbestands eine komplexe Aufgabe für den Verantwortlichen darstellt und viele Fehlerquellen birgt.  
  • Dabei muss der Verantwortliche auch die Folgen einer möglichen Re-Identifikation (siehe zuvor) in die Überlegungen einzubeziehen. 
  • Vor der Durchführung einer Anonymisierung ist in der Regel eine Datenschutz-Folgenabschätzung durchzuführen. 
  1. Technische Anonymisierungs-Werkzeuge 
  1. Anonymisierung von strukturierten Daten 

Strukturierte Datensätze bestehen aus einzelnen Datenelementen. In der tabellarischen Darstellung eines Datensatzes entspricht ein Datenpunkt einer Zeile der Tabelle. Jeder Datenpunkt des Datensatzes enthält Attribute, die konkrete Werte besitzen.  

Es gibt eine Reihe von Verfahren, mit denen strukturierte Daten anonymisiert werden können. Welches Verfahren in Frage kommt, hängt unter anderem von der Art der zu anonymisierenden Daten, dem geplanten Verwendungszweck der Daten sowie den technischen und organisatorischen Rahmenbedingungen der Datennutzung ab. Die Art der Veränderung hängt vom gewählten Verfahren ab. 

  1. Verfahren der Randomisierung 

Im Wesentlichen werden bei der Randomisierung die Werte zufällig verändert. Diese Veränderung führt dazu, dass ein Zusammenhang zwischen verschiedenen Merkmalen aufgehoben wird. Dadurch werden Inferenzrisiken reduziert.  

  1. Stochastische Überlagerung 

Die Stochastische Überlagerung ändert die Werte einzelner Merkmale in einem Datensatz. Voraussetzung ist, dass die Werte numerisch, d.h. quantitativ sind. Weiterhin wird vorausgesetzt, dass die Originaldaten nach Anwendung des Verfahrens gelöscht werden, so dass die Veränderung nicht nachvollzogen werden kann. 

  1. Vertauschung 

Durch die Vertauschung werden die Merkmalswerte nicht verändert. Stattdessen werden die Werte zwischen den Datensätzen vertauscht. Das Verfahren eignet sich daher sowohl für quantitative Daten (Ratings, Listen) als auch für qualitative Daten. Voraussetzung ist, dass die Originaldaten nach der Anwendung gelöscht werden.  

Nicht jede Vertauschung führt automatisch zu einer Anonymisierung. Es ist darauf zu darauf zu achten, dass die Merkmale vertauscht werden, die ursächlich für den Personenbezug sind. 

  1. Anonymisierung durch Aggregation  

Aggregationsbasierte Verfahren gruppieren einzelne Datenpunkte des Ursprungsdatensatzes. Die Gruppierung erfolgt dabei so, dass die Nutzbarkeit der Daten weitestgehend erhalten bleibt, aber das Risiko der Re-Identifikation und der Bestimmung von Attributwerten einzelner Personen reduziert wird. Die Aggregationsbasierte Anonymisierung wird seit langem angewandt und u.a. von der Statistik Austria genutzt. 

Üblicherweise werden bei diesen Verfahren identifizierende Merkmale entweder generalisiert oder mittels sogenannter Mikroaggregation innerhalb der Gruppen durch repräsentative Werte ersetzt.  

Generalisierung  

Bei der Generalisierung wird beispielsweise das genaue Alter durch Fünfjahresintervalle ersetzt oder der genaue Beruf durch eine Qualifikationsstufe. Hier richtet die Gruppierung sich nach den vergröberten Merkmalen.  

Mikroaggregation 

Bei der Mikroaggregation hingegen werden grundsätzlich zuerst die Gruppen festgelegt und danach wird beispielsweise das individuelle Alter durch den Median des Alters innerhalb der Gruppe ersetzt. 

U.a. gibt es folgende beliebte Aggregationsverfahren: 

  • Mondrian-Algorithmus 

Einer der populärsten Ansätze ist der sogenannte »Mondrian-Algorithmus«. Dieser gruppiert zunächst alle Datenpunkte in eine einzige Gruppe. Diese wird dann unter Berücksichtigung des gewählten Anonymitätskriteriums  in zwei neue Gruppen aufgeteilt. Für jede so entstandene Gruppe wird der Prozess der Teilung wiederholt, bis die neu entstandenen Gruppen das Anonymitätskriterium erfüllen. 

  • MDAV-Methode 

Ein weiterer etablierter Ansatz ist die MDAV-Methode (MDAV steht für »Maximum Distance to Average Vector«), die in den Bereich der Mikroaggregation fällt und daher insbesondere für numerische Attribute geeignet ist. Hierbei werden die Datenpunkte nach ihrem Abstand zueinander gruppiert. Dazu werden zunächst Gruppen gebildet, die möglichst weit von der »Mitte« entfernt sind, so dass am Ende keine Datenpunkte am »Rand« übrigbleiben.  

  1. Anonymisierung durch Rauschen 

Prinzip des Rauschens 

Bei der rauschbasierten Anonymisierung werden die Attributwerte eines Datensatzes durch künstlich erzeugtes statistisches Rauschen zufällig verändert. Dies führt dazu, dass der wahre Wert eines bestimmten Attributs nicht mehr mit Sicherheit bestimmt werden kann. Wie bei anderen Anonymisierungsverfahren wird auch hier die Nutzbarkeit der Daten eingeschränkt, da der Datensatz verfälscht wird.  

  1. Anonymisierung durch Synthese 

Eine Alternative zur Verwendung personenbezogener Daten ist die Verwendung synthetischer Daten. Synthetische Daten sind im Gegensatz zu personenbezogenen Daten nicht auf bestimmte natürliche Personen bezogen. Dementsprechend liefern sie auch keine Informationen über natürliche Personen. Vielmehr handelt es sich bei synthetischen Daten um Daten, die durch ein Berechnungsverfahren erzeugt werden. 

  1. Prinzip der Synthese 

Die Datensynthese anonymisiert Daten in einem zweistufigen Verfahren: 

  • Zunächst wird ein statistisches Synthesemodell an die Originaldaten angepasst. 
  • Mit Hilfe dieses Synthesemodells werden neue, synthetische Daten erzeugt. 

  1. Angriffe auf anonymisierte Daten 
  1. Angreifermodell 

Ein Angreifer-Modell beschreibt also eine Methode, mit der geprüft wird, ob eine Re-Identifikation von anonymisierten Daten möglich ist. Erst wenn ein solcher – ernsthalt durchgeführter – Versuch scheitert, kann von anonymen Daten gesprochen werden. 

Ein Angreifer kann verschiedene Ziele verfolgen, um Personen in einem anonymisierten Datensatz zu re-identifizieren. Je wertvoller die Daten für den Angreifer sind, desto mehr Fachwissen und Ressourcen müssen vorausgesetzt werden. Dabei sind nicht alle theoretisch denkbaren oder nicht auszuschließenden technischen Möglichkeiten oder möglicherweise vorhandenes Wissen einzubeziehen, sondern die wahrscheinlichsten. 

  1. Angriffsmethoden 

Angriffsmethoden, mit denen diese Ziele erreicht werden können, müssen in der Regel an die jeweils Anonymisierungsverfahren angepasst werden: So müssen durch Datensynthese anonymisierte Datensätze anders angegriffen werden als solche, die durch Aggregation oder Hinzufügen von Rauschen erzeugt wurden. Zudem benötigt der Angreifer in der Regel Kontextinformationen über einzelne Personen, die er mit den anonymisierten Daten abgleichen kann.  

Grundsätzlich ist es für einen Angreifer umso einfacher, Personen in einem anonymisierten einem anonymisierten Datensatz zu de-anonymisieren, je mehr relevante Kontextinformationen er über die Personen hat und je genauer er das zur Anonymisierung verwendete Verfahren kennt. Die Geheimhaltung des Anonymisierungsverfahrens kann daher eine sinnvolle Sicherheitsmaßnahme sein; die Kenntnis des Verfahrens allein dürfte die Wahrscheinlichkeit einer erfolgreichen De-Anonymisierung für einen Angreifer jedoch nicht wesentlich erhöhen. 

Um eine quantitative Aussage über die Wahrscheinlichkeit der Re-Identifikation einer Person zu machen und Attributwerten der Person zu treffen, wird häufig ein formales Angriffsmodell definiert und mit einem Testdatensatz definiert und mit einem Testdatensatz evaluiert. Ein solches Modell kann für einen gegebenen Datensatz mit unterschiedlichen Metriken evaluieren werden. 

  1. Best Practices 
  1. Anonymisierung Vorgehensmodell 

In diesem Kapitel wird ein Vorgehensmodell für die Anonymisierung erläutert. 

Einen Überblick über die in der Regel einschlägigen Rechtsgrundlagen gibt die folgende Tabelle. Welche Rechtsgrundlage eine konkrete Anonymisierung erlaubt, ist im Einzelfall zu prüfen. 

  1. Tools zur Anonymisierung 

 Im Folgenden werden einige Tools zur Anonymisierung aufgelistet: 

Tool Institution Country Platform Release LastUpdate License Link 
Amnesia TMF – Technologie- und Methodenplattform GER     Amnesia 
Anon University of Klagenfurt AUT Java 2012   ANON 
ARX BIH@Charite GER Java 2012 2022 Apache ARX  
Materialise Mimics 21.0 UN Global Impact      Materialise Mimics 21.0 
Open  
Anonymyzer 
Universyty of  
Vienna 
AUT Java 2008 2009 Open Anonymizer download | SourceForge.net 
Quali Anon Universität Bremen GER     QualiAnon 
PrioPrivacy Research Stidio Data Science AUT Java 2019 2021  PrioPrivacy 
Projekt A ainovi GmbH GER    0-15€ / Nutzer/ Monat Projekt A 
sdcMicro Statistics Austria AUT 2007 2021 GPL 2 Das umfassende R-Archiv-Netzwerk (r-project.org) 
Tiamat Purdue University USA Java 2009  „TIAMAT”  
  1. Quellenangaben 

Positionspapier-Anonymisierung.pdf des  

ISO 29100:2011; Petrlic/Sorge, Datenschutz: Einführung in technischen Datenschutz, Datenschutzrecht und angewandte Kryptographie, 2017, S. 13; Paal/Pauly/Ernst, DS-GVO, Art. 4 Rn. 48 

BDSG Bundesdatenschutzgesetz Deutschland 

Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens (bitkom.org) 

SDS_Studie_Praxisleitfaden-Anonymisieren-Web_01.pdf (stiftungdatenschutz.org) 

Arbeitshilfe zur Pseudonymisierung/Anonymisierung (gesundheitsdatenschutz.org) 

  1. Schlussbemerkung  

Anonymisierung ist ein wichtiges Verfahren, um die Risiken für betroffene Personen bei der Verarbeitung ihrer personenbezogenen Daten zu verringern. Daher sollte sie immer eingesetzt werden, wo immer es sinnvoll ist. 

Es gibt eine Vielzahl von Verfahren, mit denen Daten in der Praxis anonymisiert werden können. Welches Verfahren im Einzelfall geeignet ist, hängt im Wesentlichen vom Format der zu schützenden Daten und dem Verwendungszweck ab. Je nach Anwendung können statische, dynamische oder interaktive Verfahren eingesetzt werden. Neben der technischen Eignung des Anonymisierungsverfahrens sollte immer auch geprüft werden, ob das Verfahren geeignet ist, alle bekannten und relevanten Risiken für die Personen, deren Daten anonymisiert werden sollen, wirksam zu reduzieren

Das Tagebuch wird zur Verfügung gestellt von:  


Mehr Artikel

Die Teilnehmer des Roundtables (v.l.n.r.): Roswitha Bachbauer (CANCOM Austria), Thomas Boll (Boll Engineering AG), Manfred Weiss (ITWelt.at) und Udo Schneider (Trend Micro). (c) timeline/Rudi Handl
News

Security in der NIS2-Ära

NIS2 ist mehr ein organisatorisches Thema als ein technisches. Und: Von der Richtlinie sind via Lieferketten wesentlich mehr Unternehmen betroffen als ursprünglich geplant, womit das Sicherheitsniveau auf breiter Basis gehoben wird. Beim ITWelt.at Roundtable diskutierten drei IT-Experten und -Expertinnen über die Herausforderungen und Chancen von NIS2. […]

Christoph Mutz, Senior Product Marketing Manager, AME, Western Digital (c) AME Western Digital
Interview

Speicherlösungen für Autos von morgen

Autos sind fahrende Computer. Sie werden immer intelligenter und generieren dabei jede Menge Daten. Damit gewinnen auch hochwertige Speicherlösungen im Fahrzeug an Bedeutung. Christoph Mutz von Western Digital verrät im Interview, welche Speicherherausforderungen auf Autohersteller und -zulieferer zukommen. […]

Andreas Schoder ist Leiter Cloud & Managend Services bei next layer, Alexandros Osyos ist Senior Produkt Manager bei next layer. (c) next layer
Interview

Fokus auf österreichische Kunden

Der österreichische Backup-Experte next layer bietet umfassendes Cloud-Backup in seinen Wiener Rechenzentren. Im Interview mit ITWelt.at erläutern Andreas Schoder, Leiter Cloud & Managed Services, und Alexandros Osyos, Senior Produkt Manager, worauf Unternehmen beim Backup achten müssen und welche Produkte und Dienstleistungen next layer bietet. […]

Miro Mitrovic ist Area Vice President für die DACH-Region bei Proofpoint.(c) Proofpoint
Kommentar

Die Achillesferse der Cybersicherheit

Eine immer größere Abhängigkeit von Cloud-Technologien, eine massenhaft mobil arbeitende Belegschaft und große Mengen von Cyberangreifern mit KI-Technologien haben im abgelaufenen Jahr einen wahrhaften Sturm aufziehen lassen, dem sich CISOS ausgesetzt sehen. Eine große Schwachstelle ist dabei der Mensch, meint Miro Mitrovic, Area Vice President DACH bei Proofpoint. […]

Alexander Graf ist Geschäftsführer der Antares-NetlogiX Netzwerkberatung GmbH. (c) Antares-NetlogiX Netzwerkberatung GmbH
Interview

Absicherung kritischer Infrastrukturen

NIS2 steht vor der Tür – höchste Zeit, entsprechende Maßnahmen auch im Bereich der Operational Technology (OT) zu ergreifen. »Wenn man OT SIEM richtig nutzt, sichert es kritische Infrastrukturen verlässlich ab«, sagt Alexander Graf, Experte für OT-Security (COSP) und Geschäftsführer der Antares-NetlogiX Netzwerkberatung GmbH, im ITWelt.at-Interview. […]

Brian Wrozek, Principal Analyst bei Forrester (c) Forrester
Interview

Cybersicherheit in der Ära von KI und Cloud

Die Bedrohungslandschaft im Bereich der Cybersicherheit hat sich zu einer unbeständigen Mischung von Bedrohungen entwickelt, die durch zunehmende Unsicherheit und steigende Komplexität bedingt ist. Zu diesem Schluss kommt der Report »Top Cyber-security Threats In 2024« von Forrester. ITWelt.at hat dazu mit Studienautor Brian Wrozek ein Interview geführt. […]

In Österreich gibt es die freie Wahl des Endgeräts. Oder doch nicht? (c) Pexels
News

RTR erklärt Wahlfreiheit zum Nischenthema

Bei der Frage, ob Endkunden oder die Provider darüber entscheiden sollten, welches Endgerät sie an ihrem Breitbandanschluss nutzen können, stellt sich die RTR klar auf eine Seite. Laut RTR existiert bereits Wahlfreiheit. Dennoch will die Regulierungsbehörde aktiv werden, wenn sich noch mehr Kunden über das Fehlen der Wahlfreiheit bei ihr beschweren. Logik geht anders. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*