Eine norwegische Studie führt zu der Erkenntnis, dass zwei Verfahren zur Unkenntlichmachung das Risiko der Reidentifizierung bei fünf Millionen Patientendaten deutlich verringert haben, nämlich die k-Anonymität und das Hinzufügen eines "unscharfen Faktors". [...]
Zwei Verfahren zur Unkenntlichmachung – nämlich die k-Anonymität und das Hinzufügen eines „unscharfen Faktors“ – haben das Risiko der Reidentifizierung bei fünf Millionen Patientendaten deutlich verringert. Zu diesem Ergebnis ist eine Studie der Cancer Registry of Norway gekommen. Die Daten stammten aus einem großen Vorsorgeprogramm gegen Gebärmutterhalskrebs.
Forscher erhalten normalerweise Zugang zu unkenntlich gemachten Daten. Das bedeutet, dass alle persönlichen Infos wie Namen, Adressen oder Sozialversicherungsnummern fehlen. Das reicht laut Forschungsleiterin Giske Ursin jedoch nicht aus, um die Privatsphäre der Patienten zu schützen. Für die Direktorin des Krebsregisters wäre es der schlimmste Alptraum, wenn Patientendaten in die falschen Hände gerieten.
Fast eine Million Datensätze
Um den Ansatz zur Unkenntlichmachung zu testen, wurden Screening-Daten von 5.693.582 Aufzeichnungen von 911.510 Frauen des Norwegian Cervical-Cancer-Screening-Program benutzt. Enthalten waren Geburtsdatum, die Testergebnisse, die Namen der Labore und eine Krebsdiagnose sowie, so vorhanden, das Sterbedatum. Die Forscher nutzen ein Tool mit der Bezeichnung ARX, um das Risiko einer Reidentifizierung zu evaluieren.
Dabei wurde angenommen, dass ein Angreifer weiß, dass Daten über eine Person im Datensatz enthalten sind. Ein Angriff wird als erfolgreich angesehen, wenn eine große Anzahl von Personen von jemandem mit Zugang zu Informationen über diese Patienten identifiziert werden kann. Das Risiko wurde auf drei verschiedene Arten beurteilt. In einem ersten Schritt wurden die originalen Daten genutzt, um einen realistischen Datensatz zu erstellen (D1). Danach wurden die Daten k-anonymisiert und das Datum allgemein auf den 15. des Monats gesetzt (D2). Abschließend wurden die Daten unscharf gemacht, in dem ein Zufallsfaktor zwischen minus 4 und plus 4 zu den Monaten hinzugefügt wurde (D3).
Risiko deutlich verringert
Bei D1 lag das Risiko der Identifizierung einer Person bei 97,1 Prozent. Bei D2 verringerte sich das Risiko auf 9,7 Prozent. Hier waren statt 94 Prozent bei D1 nur noch sechs Prozent der Infos eindeutig. Der Unschärfefaktor bei D3 verringerte das Risiko nicht entscheidend weiter. Die Vertauschung der Monate aller Datensätze macht es für einen Angreifer jedoch deutlich schwerer, Daten aus diesem Datensatz mit Aufzeichnungen in anderen Datensätzen zu verknüpfen. Die Studie wurde in „Cancer Epidemiology, Biomarkers & Prevention“ publiziert.
Be the first to comment