Warum klassische Anonymisierung (und Pseudonymisierung) nicht zu anonymen Daten führt

Dieser Blog behandelt folgende Themen:

Was ist klassische Anonymisierung?
Was sind die Nachteile der klassischen Anonymisierung?
Warum bieten klassische Anonymisierungstechniken eine suboptimale Kombination zwischen Data-Utlity und Datenschutz?.
Wie unterscheiden sich synthetische Daten?
Warum immer noch personenbezogene Daten verwenden, wenn Sie synthetische Daten verwenden können?

Was ist klassische Anonymisierung?

Mit der klassischen Anonymisierung implizieren wir alle Methoden, bei denen man einen Originaldatensatz manipuliert oder verzerrt, um die Rückverfolgung von Personen zu verhindern.

Typische Beispiele für klassische Anonymisierung, die wir in der Praxis sehen, sind Generalisierung, Unterdrückung/Wipe, Pseudonymisierung und Row and Column Shuffling.

Hiermit diese Techniken mit entsprechenden Beispielen.

Technik	Originaldaten	Manipulierte Daten
Verallgemeinerung	27 Jahre alt sein	Zwischen 25 und 30 Jahren
Unterdrückung / Wischen	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymisierung	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Zeilen- und Spalten-Shuffling	Ausgerichtet	Gemischt

Was sind die Nachteile der klassischen Anonymisierung?

Die Manipulation eines Datensatzes mit klassischen Anonymisierungstechniken führt zu 2 wesentlichen Nachteilen:

Das Verzerren eines Datensatzes führt zu einer verringerten Datenqualität (dh Datennutzen). Damit wird das klassische Garbage-In-Garbage-Out-Prinzip eingeführt.
Datenschutzrisiko wird reduziert, aber wird immer dabei sein. Es bleibt eine manipulierte Version des ursprünglichen Datensatzes mit 1-1 Beziehungen.

Wir demonstrieren diese 2 Hauptnachteile, den Datennutzen und den Datenschutz. Wir tun dies mit der folgenden Illustration mit angewandter Unterdrückung und Generalisierung.

Hinweis: Wir verwenden Bilder zur Veranschaulichung. Das gleiche Prinzip gilt für strukturierte Datensätze.

Links: wenig Anwendung der klassischen Anonymisierung ergeben eine repräsentative Darstellung. Die Person kann jedoch leicht identifiziert werden und das Datenschutzrisiko ist erheblich.

Rechts: Die strenge Anwendung der klassischen Anonymisierung führt zu einem starken Datenschutz. Die Illustration wird jedoch nutzlos.

Klassische Anonymisierungstechniken bieten eine suboptimale Kombination zwischen Datennutzen und Datenschutz.

Dies stellt den Kompromiss zwischen Datennutzen und Datenschutz ein, wobei klassische Anonymisierungstechniken immer eine suboptimale Kombination aus beidem bieten.

Ist das Entfernen aller direkten Bezeichner (z. B. Namen) aus dem Dataset eine Lösung?

Nein. Dies ist ein großer Irrtum und führt nicht zu anonymen Daten. Wenden Sie dies immer noch an, um Ihren Datensatz zu anonymisieren? Dann ist dieser Blog ein Muss für Sie.

Wie unterscheiden sich synthetische Daten?

Syntho entwickelt Software, um einen völlig neuen Datensatz mit frischen Datensätzen zu generieren. Informationen zur Identifizierung realer Personen sind in einem synthetischen Datensatz einfach nicht vorhanden. Da synthetische Daten künstliche Datensätze enthalten, die von Software generiert wurden, sind personenbezogene Daten einfach nicht vorhanden, was zu einer Situation ohne Datenschutzrisiken führt.

Der entscheidende Unterschied bei Syntho: Wir wenden maschinelles Lernen an. Folglich reproduziert unsere Lösung die Struktur und Eigenschaften des ursprünglichen Datensatzes im synthetischen Datensatz, was zu einer maximalen Datenausnutzung führt. Dementsprechend können Sie bei der Analyse der synthetischen Daten die gleichen Ergebnisse erzielen wie bei der Verwendung der Originaldaten.

Diese Fallstudie zeigt Highlights aus unserem Qualitätsbericht mit verschiedenen Statistiken aus synthetischen Daten, die durch unsere Syntho Engine generiert wurden, im Vergleich zu den Originaldaten.

Zusammenfassend lässt sich sagen, dass synthetische Daten die bevorzugte Lösung sind, um den typischen suboptimalen Kompromiss zwischen Datennutzen und Datenschutz zu überwinden, den Ihnen alle klassischen Anonymisierungstechniken bieten.

Warum also echte (sensible) Daten verwenden, wenn Sie synthetische Daten verwenden können?

Zusammenfassend lässt sich sagen, dass Sie sich aus Sicht der Datendienstleistung und des Datenschutzes immer für synthetische Daten entscheiden sollten, wenn Ihr Anwendungsfall dies zulässt.

	Wert für die Analyse	Datenschutzrisiko
Synthetische Daten	High	Andere
Echte (personenbezogene) Daten	High	High
Manipulierte Daten (durch klassische 'Anonymisierung')	Niedrig-Mittel	Medium-High

Synthetische Daten von Syntho füllen die Lücken, in denen klassische Anonymisierungstechniken versagen, indem sie beide maximieren Daten-Dienstprogramm und Datenschutz.

Interessiert?

Entdecken Sie mit uns den Mehrwert von Synthetic Data

BUCH DEMO

Was sind synthetische Daten?

Qualitätssicherungsbericht

Externe Bewertung durch SAS

Synthetische Zeitreihendaten

PII-Scanner

Synthetische Scheindaten

Konsistente Zuordnung

Deidentifizierung und Synthetisierung

Regelbasierte synthetische Daten

Untereinstellung

Bereitstellung und Integration

Anschluss

Erweiterte Funktionen

Unterstützte Daten

Benutzerdokumentation

Planen Sie eine Demo

AnzeigenPreise

Synthetische Daten als Testdaten

Synthetische Daten für Analysen

Synthetische Daten für den Datenaustausch

Synthetische Daten für Produktdemos

Gesundheitswesen

Finanzen

Öffentliche Organisationen

Benutzerdokumentation

Whitepapers und Leitfäden

Blog

Webinare

Fallstudien