30. März 2025

Big Data und DSGVO: So setzen Sie die gesetzlichen Regelungen mit offenen Technologien um

Die Hauptziele der DSGVO, dem neuen EU-Gesetz zur Speicherung von personenbezogenen Daten, bestehen darin, den EU-Bürgern die Kontrolle über ihre personenbezogenen Daten zurückzugeben. [...]

Stefan_Müller — Stefan Müller ist Director Data Analytics bei it-novum. (c) it-novum

Wichtige Punkte sind die Notwendigkeit der Einwilligung in die Verwendung personenbezogener Daten, das Recht auf Löschung personenbezogener Daten und die Verpflichtung, Personen im Falle eines Verstoßes zu benachrichtigen. Die Sanktionen sind drastisch: Es drohen Geldstrafen von bis zu 20.000.000 EUR oder bis zu vier prozent des jährlichen, weltweiten Umsatzes. Diese Geldbußen stellen ein erhebliches finanzielles Risiko für Unternehmen dar.

Vor diesem Hintergrund stehen Verantwortliche vor technischen, fachlichen und organisatorischen Herausforderungen für ihre analytischen Systeme, wie z. B.:

Klärung, was personenbezogene Daten sind
‚privacy by design‘ und ‚privacy by default‘
Pseudonymisierung und Anonymisierung
Geforderte Datenqualität durch die DSGVO

DSGVO und Data Science

Die DSGVO beeinflusst Data Science und Data Warehousing in der Praxis in folgenden Bereichen: Erstens setzt die DSGVO der Verarbeitung personenbezogener Daten und der Erstellung von Verbraucherprofilen engere Grenzen. Zweitens müssen Unternehmen, die Technologien für die automatisierte Entscheidungsfindung einsetzen, den Verbrauchern ein „Recht auf eine Erklärung“ zugestehen. Drittens macht die DSGVO Unternehmen für Verzerrungen und Diskriminierungen bei automatisierten Entscheidungen verantwortlich. Viertens müssen Unternehmen beachten, dass auch bestehende Analysen mit personenbezogenen Daten mit Inkrafttreten der DSGVO illegal werden könnten.

Lösungsansätze mit offenen Technologien

Unternehmen müssen die von ihnen erfassten Daten auf DSGVO-Betroffenheit untersuchen, Compliance-Verfahren implementieren, ihre Verarbeitungsvorgänge bewerten und vieles mehr. Aufgrund ihrer offenen Architektur und Schnittstellen sind Open Source-Technologien dafür prädestiniert, transparente und nachvollziehbare Datenprozesse im Unternehmen zu unterstützen. Im Folgenden wird eine beispielhafte Lösung für die Umsetzung der DSGVO-Vorgaben mit offenen Lösungen beschrieben.

Die Datenbank Cloudera beinhaltet ein Metadaten Repository, das es ermöglicht, zu jeder Tabelle/Datei oder Verzeichnis Metadaten in Form von zusätzlichen Tags (z. B. WICHTIG) zu speichern. Diese Tags können anschließend gesucht und in der Data Lineage dargestellt werden.

Wenn die zutreffenden Daten im Cloudera Navigator durch Metadaten markiert wurden, sind alle „Orte“ bekannt, in denen sich DSGVO-relevante Daten befinden und wie sie weiterverarbeitet werden.

Bei einem Datenabfluss (z. B. Hackerangriff) helfen diese Informationen, die Betroffenen zu informieren, da bekannt ist, welche Daten betroffen sind. Des Weiteren erlaubt eine klare Governance, z. B. durch Einschränkung des Benutzerkreises, zu entscheiden, wer auf die Daten zugreifen darf. Darüber hinaus ist es möglich, durch die Auditfunktionen des Navigators tatsächliche Datenabflüsse stark einzugrenzen.

Das Erstellen dieser Metadaten-Tags für die Daten sowie das Übermitteln an den Cloudera Navigator wird von der Open Source-BI-Plattform Pentaho übernommen. Dazu ruft Pentaho den passenden API Endpoint des Navigators auf und übermittelt den Metadaten-Tag. Die Möglichkeit eines automatisierten Erkennens des passenden Metadata Tags bietet z. B. ein Pattern-Recognition-Verfahren.

Anonymisierung und Pseudonymisierung

Unternehmen sollten den Zugriff auf personenbezogene Daten ihrer Kunden beschränken. Damit Analytiker standardmäßig nicht auf personenbezogene Daten zugreifen können, sollte eine robuste Anonymisierung implementiert werden. Anschließend sollte ein Ausnahmeprozess, der den Zugriff auf personenbezogene Daten in Ausnahmefällen unter angemessener Sicherheit zulässt, eingeführt werden.

Ein weiterer Lösungsweg mit Personendaten zu arbeiten ohne die strengen Richtlinien der DSGVO zu verletzen, ist, die Analysen mit pseudonymisierten Daten durchzuführen. Technisch ließe sich eine solche Pseudonymisierung, also das Ersetzen des Klarnamens durch ein Pseudonym durch Pentaho, bereits beim Einspeisen in den Data Lake umsetzen.

Recht auf Vergessen

Implementieren Sie einen Prozess, um Kundenfragen und Bedenken bezüglich automatisierter Entscheidungen zu bearbeiten. Stellt ein Kunde z. B. eine Anfrage für das Löschen seiner personenbezogenen Daten, ist es wichtig, zunächst einmal zu ermitteln, wo diese überhaupt gespeichert sind. Dies geschieht durch das Suchen des Metadata Tags im Navigator und anhand der Data Lineage und anschließender Übergabe an einen entsprechend entwickelten Pentaho ETL Job, der die Daten aus allen relevanten Verarbeitungsstufen löscht.

ETL im Data Lake

Daten werden im Data Lake normalerweise in verschiedenen Formen weiterverarbeitet. Hierbei ist es wichtig, die Metadata Tags weiter zu pflegen. Entfallen personenbezogene Daten, so kann das GDPR Tag wieder entfernt werden.

Bei prediktiven Modellen, die personenbezogene Daten verwenden, sollte geklärt werden, ob diese Daten wirklich analytisch notwendig sind und ob sie einen eindeutigen Informationsmehrwert bieten. Relevant ist auch die Frage, ob das Vorhersagemodell einen zulässigen Anwendungsfall unterstützt, zum Beispiel einen Anti-Geldwäsche-Fall. Abschließend definieren Sie einen Review- und Annahmeprozess für kundenorientierte Vorhersagemodelle, der unabhängig von den Modellentwicklern ist.

DSGVO Reporting

Unternehmen müssen allen Stakeholdern (Mitarbeitern, Tochterunternehmen, Kunden und Prüfern) Informationen zum Compliance-Status und Fortschrittsberichte liefern. Prüfern und Zertifizierungsstellen muss eine gesetzeskonforme Verarbeitung nachgewiesen werden und den Offenlegungspflichten gegenüber Betroffenen ist nachzukommen.

All diese Informationen sind zeitnah und übersichtlich bereitzustellen. Die Kombination des Cloudera Navigators mit Pentaho hilft dabei, die Reporting-Anforderungen zu erfüllen.

6 Grundsätze für eine KI-taugliche Datenbasis

28. März 2025

Wer Künstliche Intelligenz nutzen will, muss über eine vertrauenswürdige Datengrundlage verfügen. Daten sind das Lebenselixier von KI-Systemen und bestimmen maßgeblich die Qualität und Zuverlässigkeit der Ergebnisse. Nur so können KI-Modelle robust, anpassungsfähig und vertrauenswürdig arbeiten. […]

Cybersicherheitsbudgets werden falsch priorisiert

28. März 2025

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

28. März 2025

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

IT-Chefs von ORF und der Österreichischen Post als CIOs des Jahres ausgezeichnet

28. März 2025

Astrid Zöchling, CIO des ORF, und Horst Ulrich Mooshandl, CIO & CPO der Österreichischen Post, wurden von Confare mit dem CIO Award 2025 ausgezeichnet. Die weiteren Top CIOs des Jahres sind Franz Hillebrand, ehemaliger CIO der SIGNA, Martin Karanitsch, CIO der Österreichischen Nationalbank und Peter Reichstädter, CIO der Parlamentsdirektion. […]

Die Wi-Fi-Standards

28. März 2025 Luca Diggelmann *

Die Welt der Wi-Fi-Standards wirkt kompliziert. Es gibt Wi-Fi 5, Wi-Fi 6 und bald Wi-Fi 7. Doch welcher Standard kann was? Wir erklären Ihnen die aktuellen Wi-Fi-Standards und verraten, was diese taugen. […]

In sieben Minuten kann METRO Markets über 200 Kategorie-Seiten erstellen. (c) Storyblok

METRO Markets optimiert Content-Prozesse mit Storyblok

27. März 2025 pi/cb

METRO Markets implementiert Storyblok als CMS und automatisiert zentrale Prozesse. Dadurch steigern sich Effizienz, SEO-Leistung und Personalisierung im E-Commerce. […]

„Der Mensch bleibt das Maß aller Dinge“

27. März 2025 Wolfgang Franz

Am 25. März startete der europäische IT-Sicherheitshersteller ESET die ESET World 2025 im ARIA Resort & Casino in Las Vegas. CEO Richard Marko gab in seiner Keynote eine Übersicht der aktuellen Herausforderungen in Sachen Cybersecurity und der Möglichkeiten, diese zu meistern. […]

Generative KI als Sicherheitsrisiko

27. März 2025

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

KI direkt am Edge: fünf unschlagbare Vorteile

27. März 2025

Die Integration von künstlicher Intelligenz am Edge schafft einen Paradigmenwechsel in der Datenverarbeitung. Moderne IT-Plattformen mit ihren kompakten KI-Servern ermöglichen es, wichtige Informationen direkt an der Quelle zu analysieren. […]

Big Data und DSGVO: So setzen Sie die gesetzlichen Regelungen mit offenen Technologien um

Die Hauptziele der DSGVO, dem neuen EU-Gesetz zur Speicherung von personenbezogenen Daten, bestehen darin, den EU-Bürgern die Kontrolle über ihre personenbezogenen Daten zurückzugeben. [...]

DSGVO und Data Science

Lösungsansätze mit offenen Technologien

Anonymisierung und Pseudonymisierung

Recht auf Vergessen

ETL im Data Lake

DSGVO Reporting

Mehr Artikel

6 Grundsätze für eine KI-taugliche Datenbasis

Cybersicherheitsbudgets werden falsch priorisiert

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

IT-Chefs von ORF und der Österreichischen Post als CIOs des Jahres ausgezeichnet

Die Wi-Fi-Standards

METRO Markets optimiert Content-Prozesse mit Storyblok

„Der Mensch bleibt das Maß aller Dinge“

Generative KI als Sicherheitsrisiko

KI direkt am Edge: fünf unschlagbare Vorteile

Be the first to comment

Leave a Reply Antworten abbrechen