Warum klassische Anonymisierung (und Pseudonymisierung) nicht zu anonymen Daten führt

Was ist klassische Anonymisierung?

Mit der klassischen Anonymisierung implizieren wir alle Methoden, bei denen man einen Originaldatensatz manipuliert oder verzerrt, um die Rückverfolgung von Personen zu verhindern.

Typische Beispiele für klassische Anonymisierung, die wir in der Praxis sehen, sind Generalisierung, Unterdrückung/Wipe, Pseudonymisierung und Row and Column Shuffling.

Hiermit diese Techniken mit entsprechenden Beispielen.

Technik Originaldaten Manipulierte Daten
Verallgemeinerung 27 Jahre alt sein Zwischen 25 und 30 Jahren
Unterdrückung / Wischen info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisierung Amsterdam hVFD6td3jdHHj78ghdgrewui6
Zeilen- und Spalten-Shuffling Ausgerichtet Gemischt

Was sind die Nachteile der klassischen Anonymisierung?

Die Manipulation eines Datensatzes mit klassischen Anonymisierungstechniken führt zu 2 wesentlichen Nachteilen:

  1. Das Verzerren eines Datensatzes führt zu einer verringerten Datenqualität (dh Datennutzen). Damit wird das klassische Garbage-In-Garbage-Out-Prinzip eingeführt.
  2. Datenschutzrisiko wird reduziert, aber wird immer dabei sein. Es bleibt eine manipulierte Version des ursprünglichen Datensatzes mit 1-1 Beziehungen.

Wir demonstrieren diese 2 Hauptnachteile, den Datennutzen und den Datenschutz. Wir tun dies mit der folgenden Illustration mit angewandter Unterdrückung und Generalisierung.

Hinweis: Wir verwenden Bilder zur Veranschaulichung. Das gleiche Prinzip gilt für strukturierte Datensätze.

Klassische Anonymisierung schlägt fehl
  • Links: wenig Anwendung der klassischen Anonymisierung ergeben eine repräsentative Darstellung. Die Person kann jedoch leicht identifiziert werden und das Datenschutzrisiko ist erheblich.

 

  • Rechts: Die strenge Anwendung der klassischen Anonymisierung führt zu einem starken Datenschutz. Die Illustration wird jedoch nutzlos.

Klassische Anonymisierungstechniken bieten eine suboptimale Kombination zwischen Datennutzen und Datenschutz.

Dies stellt den Kompromiss zwischen Datennutzen und Datenschutz ein, wobei klassische Anonymisierungstechniken immer eine suboptimale Kombination aus beidem bieten. 

klassische Anonymisierungsnutzenkurve

Ist das Entfernen aller direkten Bezeichner (z. B. Namen) aus dem Dataset eine Lösung?

Nein. Dies ist ein großer Irrtum und führt nicht zu anonymen Daten. Wenden Sie dies immer noch an, um Ihren Datensatz zu anonymisieren? Dann ist dieser Blog ein Muss für Sie.

Wie unterscheiden sich synthetische Daten?

Syntho entwickelt Software, um einen völlig neuen Datensatz mit frischen Datensätzen zu generieren. Informationen zur Identifizierung realer Personen sind in einem synthetischen Datensatz einfach nicht vorhanden. Da synthetische Daten künstliche Datensätze enthalten, die von Software generiert wurden, sind personenbezogene Daten einfach nicht vorhanden, was zu einer Situation ohne Datenschutzrisiken führt.

Der entscheidende Unterschied bei Syntho: Wir wenden maschinelles Lernen an. Folglich reproduziert unsere Lösung die Struktur und Eigenschaften des ursprünglichen Datensatzes im synthetischen Datensatz, was zu einer maximalen Datenausnutzung führt. Dementsprechend können Sie bei der Analyse der synthetischen Daten die gleichen Ergebnisse erzielen wie bei der Verwendung der Originaldaten.

Diese Fallstudie zeigt Highlights aus unserem Qualitätsbericht mit verschiedenen Statistiken aus synthetischen Daten, die durch unsere Syntho Engine generiert wurden, im Vergleich zu den Originaldaten.

Zusammenfassend lässt sich sagen, dass synthetische Daten die bevorzugte Lösung sind, um den typischen suboptimalen Kompromiss zwischen Datennutzen und Datenschutz zu überwinden, den Ihnen alle klassischen Anonymisierungstechniken bieten.

klassische Anonymisierungsnutzenkurve

Warum also echte (sensible) Daten verwenden, wenn Sie synthetische Daten verwenden können?

Zusammenfassend lässt sich sagen, dass Sie sich aus Sicht der Datendienstleistung und des Datenschutzes immer für synthetische Daten entscheiden sollten, wenn Ihr Anwendungsfall dies zulässt.

 Wert für die AnalyseDatenschutzrisiko
Synthetische DatenHighAndere
Echte (personenbezogene) DatenHighHigh
Manipulierte Daten (durch klassische 'Anonymisierung')Niedrig-MittelMedium-High
Idee

Synthetische Daten von Syntho füllen die Lücken, in denen klassische Anonymisierungstechniken versagen, indem sie beide maximieren Daten-Dienstprogramm und Datenschutz.

Interessiert?

Entdecken Sie mit uns den Mehrwert von Synthetic Data