Grenzen der Pseudonymisierung

Sogar statistische Auswertungen und wissenschaftliche Studien sind als personenbezogene Daten zu behandeln, wenn der Bezug zu natürlichen Personen herstellbar ist. [...]

Pseudonymisierung alleine genügt nicht (c) CW

Pseudonymisierung ist eine technische Maßnahme, um die Sensibilität für Personen-bezogene Daten zu entschärfen. Insbesondere bei statistischen Auswertungen und wissenschaftlichen Studien steht zB die identifizierbare Person nicht im Vordergrund. Solange aber prinzipiell die Möglichkeit besteht, dass der Bezug zu natürlichen Personen herstellbar ist, sind laut DSGVO auch pseudonymisierte Daten als personenbezogene Daten zu behandeln – selbst wenn der Bezug nur über Dritte erfolgen kann.

„Bei der Pseudonymisierung wird der Name oder ein anderes Identifikationsmerkmal durch ein Pseudonym (zumeist eine mehrstellige Buchstaben- oder Zahlenkombination, auch Code genannt) ersetzt, um die Feststellung der Identität des Betroffenen auszuschließen oder wesentlich zu erschweren.“ (siehe § 3 Abs. 6a BDSG bzw. entsprechendes Landesrecht).

Im Gegensatz zur Anonymisierung bleiben bei der Pseudonymisierung Bezüge verschiedener Datensätze, die auf dieselbe Art pseudonymisiert wurden, erhalten.

Die Pseudonymisierung ermöglicht also – unter Zuhilfenahme eines Schlüssels – die Zuordnung von Daten zu einer Person, was ohne diesen Schlüssel nicht oder nur schwer möglich ist, da Daten und Identifikationsmerkmale getrennt sind. Entscheidend ist also, dass eine Zusammenführung von Person und Daten noch möglich ist. Nicht wesentlich erschwert ist andererseits jedoch die Identitätsfeststellung, wenn als Kennzeichen lediglich Initialen und Geburtsdatum verwendet werden.

Je aussagekräftiger die Datenansammlung ist (z. B. Einkommen, Krankheitsgeschichte, Wohnort, Größe), desto größer ist die theoretische Möglichkeit, diese auch ohne Code einer bestimmten Person zuzuordnen und diese identifizieren zu können. Um die Anonymität zu wahren, müssten diese Daten gegebenenfalls getrennt oder verfälscht werden, um die Identitätsfeststellung zu erschweren.

Definition nach DSGVO

Art. 4 (5) definiert Pseudonymisierung wie folgt:

„Pseudonymisierung“ ist die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden“.

Quintessenz

Die Pseudonymisierung ersetzt z.B. den Namen oder andere Identifikationsmerkmale durch Pseudonyme, die ohne Zusatzinformation (Schlüssel) einer natürlichen Person nicht mehr zugeordnet werden können.

Unter Zuhilfenahme der Zusatzinformation ist es somit möglich, eine Zusammenführung von Person und Daten herzustellen (Re-Identifizierung).

Anforderungen an eine Pseudonymisierung

Die DSGVO schreibt keine konkreten Verfahren für die Pseudonymisierung vor.

Pseudonymisierungs-Verfahren sollen die Nichtverfügbarkeit der zusätzlichen Informationen garantieren und in diesem Sinn eine anonymisierende Wirkung haben.

Trotz der anonymisieren Wirkung bleibt aufgrund der Existenz dieser Zusatzinformationen (Schlüssel, Umsetzungstabelle, Formel etc.) ein möglicher Personenbezug bestehen. Die Pseudonymen entspricht daher eben nicht einer irreversiblen Anonymisierung.

Es versteht sich von selbst, dass die Zuordnung derartiger Identitätsinformationen (Schlüssel etc.) einem erhöhten Schutz durch technische und organisatorische Maßnahmen gegen den unberechtigten Zugriff unterliegen müssen. Nutzern pseudonymisierter Daten muss daher der Zugriff zu diesem zusätzlichen Informationen verwehrt werden. Da es aber Situationen geben kann, wo dieser Zugriff erforderlich ist, muss es diese Möglichkeit unter gegebenen Umständen geben.

Pseudodynamisierungsverfahren, die für diese Zwecke zum Einsatz kommen, müssen selbstverständlich dem Stand der Technik entsprechen. Es ist Aufgabe des Datenschutzbeauftragten die Wirksamkeit dieser Verfahren periodisch zu überprüfen, zu bewerten und zu evaluieren. Dies kann von ihm persönlich wahrgenommen werden oder an Dritte (zB Ziviltechniker) ausgelagert werden.

Im Folgenden werden zwei Varianten beschrieben, die Risiko-mindernde Wirkung bzw. anonymisierende Wirkung haben. In der Praxis sind sie nicht isoliert sondern im Regelfall kombiniert zu betrachten.

Risiko mindernde Wirkung

Die Minderung des Risikos für die Rechte und Freiheiten der Betroffenen ist das Ergebnis eines Pseudonymisierungs-Verfahrens. Wie hoch die tatsächliche Minderung des Risikos ist, hängt von der konkreten Ausgestaltung des Pseudonymisierungs-Verfahrens ab.

Knackpunkt dabei ist die gesonderte und gesicherte Aufbewahrung der „zusätzlichen Informationen“ gemäß Art. 4 Abs. 5, d.h. die Zuordnung der pseudonymisierten Daten zu den Identitätsdaten. Das Verfahren kann vorsehen, dass diese Zuordnung von einem unabhängigen Dritten (zum Beispiel Ziviltechniker als Treuhänder) übernommen wird. Dadurch wird verhindert, dass die verantwortliche Stelle in die Lage versetzt wird, die Zuordnung anonymisierter Daten zu einer speziellen betroffenen Person durchzuführen.

Die Auslagerung an Dritte ist nicht zwingend erforderlich. Gemäß Erwägungsgrund 29 ist es sehr wohl möglich, dass das Anonymisierungsverfahren vollständig in der Hand des Verantwortlichen bleibt, sofern “diese die erforderlichen technischen und organisatorischen Maßnahmen getroffen hat, um – für die jeweilige Verarbeitung – die Umsetzung der DSGVO zu gewährleisten“.

Dies bedingt allerdings, dass die Zuordnungsregel gesondert aufbewahrt wird und der Zugriff auf wenige befugte Personen begrenzt wird. Jedenfalls ist die Zuordnungsregel durch Sicherungsmaßnahmen besonders zu schützen, entsprechend den Vorgaben des Art. 32 DSGVO. Ein Restrisiko bleibt dabei jedoch immer bestehen und die Nachweispflicht im Falle eines Datenschutzvorfalls ist wesentlich aufwendiger.

Anonymisierende Wirkung

Für die weitere Verarbeitung sollen pseudonymisierte Daten die gleichen Eigenschaften haben wie anonymisierte Daten. Eine Zuordnung der Daten zu einer identifizierbaren Person muss ausgeschlossen sein. Laut Erwägungsgrund 26 der DSGVO sind die Daten dann anonym, wenn die betroffene Person nicht oder nicht mehr identifiziert werden kann“. Ohne die Existenz der Zusatzinformationen werden die Daten daher nach den Kriterien des Art. 4 Abs. 1 nicht personenbezogen verarbeitet.

Ob pseudonymisierte Daten zu spezifischen Person zugeordnet werden können muss für jede Verarbeitung dieser Daten extra geprüft und ausgeschlossen werden. Dabei müssen alle Mittel berücksichtigt werden, die nach allgemeinem Ermessen im Zuge der Verarbeitung genutzt werden können. So wird beispielsweise im Erwägungsgrund 26 der DSGVO das Mittel der Identifizierung durch Aussondern (im Sinne von „Vereinzelung“ bzw.“ Link Out“) angeführt. Einzelne pseudonymisierte Daten sind demnach explizit auch im Zusammenhang mit anderen Daten zu bewerten. Dabei sind nicht nur die aktuell verfügbare Technologie sondern auch absehbare zukünftige technologische Entwicklungen zu berücksichtigen.

Demnach ist es also erforderlich, neben dem aktuellen Risiko einer Identifizierung auch zukünftige, erwartbare Risiken einzubeziehen. In dem Zusammenhang wird auch von einer sogenannten“ Schutz Reserve“ gesprochen. So ist beispielsweise denkbar, dass für Daten, die über einen längeren Zeitraum verwendet werden durch bessere Verknüpfungsmöglichkeiten oder neues Zusatzwissen eine Identifizierung ermöglicht werden könnte, die zum mit dem heutigen Stand der Technik noch nicht gegeben ist.

Obwohl diese anonymisieren Wirkung die Identifikation von Personen verhindert, ist ein derartiges Pseudonym bzw. Verfahren nicht ident mit einer Anonymisierung. Letztere setzt voraus, dass gemäß Erwägungsgrund 26 DSGVO eine Identifizierung überhaupt nicht mehr möglich ist. Daraus ergibt sich die Schlussfolgerung, dass pseudonymisierte Daten demnach stets als personenbezogene Daten zu behandeln sind.

Verfahren der Pseudonymisierung

Häufig werden Daten durch Pseudonyme anonymisiert, um die Datensätze für statistische oder wissenschaftliche Auswertungen weiter zu nutzen. Diese Auswertungen werden aber – ohne einen direkten Personenbezug herzustellen – ausgeführt.

Das Schutzniveau kann organisatorisch durch eine strikte Trennung der eigentlichen Datenverarbeitung von der Erstellung der Pseudonyme erhöht werden. Besonders hoch ist der Schutz, wenn diese Trennung durch unabhängige Dritte vorgenommen wird. Außerdem hängt das Schutzniveau vom angewendeten technischen Verfahren zur Erstellung von Pseudonymen ab.

Erstellung von Pseudonymen

Generell stehen für die Zuordnung eines Pseudonyms zu einem Datensatzes zwei Verfahren zur Verfügung: Ein Berechtigungsverfahren und eine Pseudonym-Erstellung mittels Listen.

Listen

Aufgrund der Möglichkeit der Zuordnung dieser zusätzlichen Informationen zu einer identifizierbaren Person, ist es erforderlich, diese Zusatzinformationen gesondert aufzubewahren und durch technische und/oder organisatorische Maßnahmen zu schützen.

Zusätzlich ist zu verhindern, dass ein und dasselbe Pseudonym an mehrere unterschiedliche Personen vergeben wird. Dies ist vor allem deshalb wichtig, damit im Falle eines Auskunft-Begehrens eines Betroffenen dieser die Daten eines anderen Betroffenen als Auskunft erhält.

Berechnungsverfahren

Eine Alternative zur Pseudonymerstellung mittels Listen ist die Berechnung des Pseudonyms durch eine Formel. Dieses Verfahren hat vor den Vorteil, dass das Speichern einer Tabelle mit den Zuordnungen von Identitätsdaten zu Pseudonymen nicht erforderlich ist. Zu berücksichtigen ist allerdings, dass verhindert werden muss, dass nicht auch Dritte das Pseudonym berechnen können. Deshalb ist es wichtig das Verfahren abzusichern zum Beispiel durch einen geheimen kryptografischen Schlüssel.

Die kryptographische Prüfsumme der Identitätsdaten kann für die Erzeugung eines Pseudonyms genutzt werden. Es ist darauf zu achten, dass der Industriestandard für die Verschlüsselung beachtet wird und ein ausreichend langer Schlüssel verwendet wird. Dabei ist der erwartbare technische Fortschritt zu berücksichtigen.

Pseudonym Erstellung durch Listen

In diesem Fall werden Identitätsdaten anhand einer Tabelle Pseudonymen zugeordnet – siehe folgende Abbildung:

Bei der Pseudo-Anonymisierung muss jedoch darauf geachtet werden, dass die Person über keinen inhaltlichen oder funktionalen Bezug zu den Identitätsdaten haben. Ein „Durchnummerieren“ der Pseudonyme (wie in der Spalte „nummeriert“ dargestellt) ist zu vermeiden, da gegebenenfalls aus dem Pseudonym Informationen ableitbar sind. Beispiele dafür sind die Stellung im Alphabet, der Zeitpunkt der Speicherung in der Datenbank usw. Derartige Informationen können die Identifizierung erleichtern.

Vermeiden lässt sich dieses Risiko durch zufällig vergebene Pseudonyme (siehe Spalte „zufällig“). Durch dieses Verfahren besteht jedoch die Möglichkeit von homonymen Fehlern, darunter versteht man die die zufällige Zuordnung gleicher Pseudonyme zu zwei oder mehr unterschiedlichen Identitäten. Deshalb empfiehlt es sich, vor der Neuvergabe zu prüfen, ob das Pseudonym bereits vergeben ist. Eine Alternative dazu stellt die Verlängerung des Pseudonyms dar. Mit der Länge des Pseudonyms sinkt die Wahrscheinlichkeit für hormonellen Fehler drastisch.

Dokumentation

Das Pseudonymisierungs-Verfahren ist zu dokumentieren. Dabei sind die Vorgaben des Artikel des Art. 30 DSGVO zu erfüllen. Die Nachprüfbarkeit muss sowohl für eigene Zwecke als auch im Zuge der Rechenschaftspflicht gegenüber der Behörde gegeben sein. Sie muss zum Beispiel die Beschreibung des konkreten Verfahrens beinhalten. Weiters muss sie die Personen beinhalten, die befugt sind, die Pseudonymisierung durchzuführen“. Wie bereits erwähnt könnten dies auch externe Dritte (insbesondere Zivilingenieure) abdecken.

Re-Identifizierung

Falls eine Re-Identifizierung der pseudoanonymisierten Daten unter bestimmten Bedingungen vorgesehen sein sollte, ist auch zu dokumentieren, wer unter welchen Bedingungen auf welche Weise diese Verarbeitung vornimmt.

Praktisches Beispiel:

Bei anonymisierten medizinische Studien werden Gesundheits-Daten erhoben. Diese fallen unter die Verarbeitung „Besondere Kategorie personenbezogener Daten“ nach Ar.9 DSGVO. Bei der Analyse der Daten kann der Fall eintreten auf, dass manche Patienten eine anzeigepflichtige Krankheit haben. In diesen Fällen ist es erforderlich, die Daten des Betroffenen – trotz Pseudonymisierung – zurückzuführen, damit der Anzeigepflicht nachgekommen werden kann.

Risiken bei Pseudonymen

Das bestehende Risiko ist durch die Zuordnung der Daten zu einer betroffenen Person gegeben. Wie bereits oben ausgeführt, werden an die Sicherung der Zuordnungs-Informationen hohe Anforderungen gestellt.

Bei der Risikobewertung einer Pseudonymisierung sind verschiedene Angriffs-Szenarien zu berücksichtigen. Zu unterscheiden ist, ob zu einem bekannten Pseudonym die betroffene Person identifiziert werden soll oder das zu einer betroffenen Person passende Pseudonym gefunden werden sol. Eine dritte (im Regelfall harmlose) Variante besteht darin, dass festgestellt werden soll, ob der Betroffene überhaupt in einem Datensatz enthalten ist oder nicht. Alle drei Varianten stellen ein Risiko für die Rechte und Freiheiten der Betroffenen dar. Um diesen Zusammenhang herstellen zu können werden folgende Vorgangsweisen unterschieden:

Aussondern (“Link Out“)

Aus den Pseudonymen Daten können gegebenenfalls durch die Kombination mehrerer Merkmale einzelne Personen identifiziert werden, weil ihre Merkmalskombination einmalig ist.

Ausprobieren („Trial and Error“)

Ist die Menge an Identitätsdaten überschaubar, können im Zuge der Pseudonymisierung bei der Verwendung einer mathematischen Zuordnungsregel alle möglichen Identitätsdaten ausprobiert werden bis die Identität zu einem Pseudonym aufgedeckt wird.

Verknüpfung bzw. Verkettung (“ Linking“)

Durch Verknüpfung anonymisierter Daten mit anderen Datensätzen könnte eine Identifikation von Personen ermöglicht werden.

Schlussfolgerungen („Interferring“)

Mit zusätzlichem Wissen ist es möglich aus dem anonymisierten Daten Schlussfolgerungen zu ziehen und zu Rückschlüsse auf betroffene Personen zu ziehen. Praxis Beispiel: wenn in einer Grundgesamtheit ein bisschen bestimmtes Merkmal nicht vorkommt, kann die Schlussfolgerung gezogen werden, dass ein bestimmter Betroffener dieses Merkmal nicht besitzt.

Gegenmaßnahmen für die oben angeführt Methoden sind zum Beispiel die Generalisierung von Daten bis hin zum Verfälschen oder Hinzufügen fiktiver Daten, worunter allerdings im Regelfall die Qualität der Datenquelle verfälscht werden kann. Bei der Erwägung von Maßnahmen muss dementsprechend der Zweck der Verarbeitung berücksichtigt werden.

Homonym-Fehler:

Ein zusätzliches Risiko der Pseudoanonymisierung liegt im Homonym-Fehler. Darunter versteht man die Zuweisung des gleichen Pseudonyms an zwei oder mehr unterschiedliche Betroffene. Es liegt auf der Hand, dass in diesem Fall bei einem Auskunfts-Begehren zu einer betroffenen Person falsche Auskünfte erteilt werden können.

Praxistipp:

Bei Wegfall des Zwecks der Verarbeitung ist die „Pseudonymisierung“ nicht mehr erforderlich. Zuordnungstabellen können daher gelöscht werden.

Weiters wird dringend empfohlen, die „Pseudonymisierung“ als eigenständiges Verfahren durchzuführen – für welches die speziellen Anforderungen der Anonymisierung gelten – sofern nicht Praxiserfordernisse wie oben beschrieben (Anzeigepflicht) dagegen sprechen.

Schlussbemerkung

Pseudonyme sind ein wichtiges Instrument zum Schutz Betroffener gemäß DSGVO. Dabei sind jedoch Qualitätsunterschiede bei den angewendeten Verfahren zu beobachten. Sie ermöglichen die Weiterverarbeitung personenbezogener Daten zum Beispiel für statistische Zwecke.

Es empfiehlt sich, Best-Praxis-Ansätze und Standardisierungs-Methoden sowie die organisatorische Einbettung in die Abläufe von Verantwortlichen zu berücksichtigen.

Das Tagebuch wird zur Verfügung gestellt von