Mit der klassischen Anonymisierung implizieren wir alle Methoden, bei denen man einen Originaldatensatz manipuliert oder verzerrt, um die Rückverfolgung von Personen zu verhindern.
Typische Beispiele für klassische Anonymisierung, die wir in der Praxis sehen, sind Generalisierung, Unterdrückung/Wipe, Pseudonymisierung und Row and Column Shuffling.
Hiermit diese Techniken mit entsprechenden Beispielen.
Technik | Originaldaten | Manipulierte Daten |
Verallgemeinerung | 27 Jahre alt sein | Zwischen 25 und 30 Jahren |
Unterdrückung / Wischen | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymisierung | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Zeilen- und Spalten-Shuffling | Ausgerichtet | Gemischt |
Die Manipulation eines Datensatzes mit klassischen Anonymisierungstechniken führt zu 2 wesentlichen Nachteilen:
Wir demonstrieren diese 2 Hauptnachteile, den Datennutzen und den Datenschutz. Wir tun dies mit der folgenden Illustration mit angewandter Unterdrückung und Generalisierung.
Hinweis: Wir verwenden Bilder zur Veranschaulichung. Das gleiche Prinzip gilt für strukturierte Datensätze.
Dies stellt den Kompromiss zwischen Datennutzen und Datenschutz ein, wobei klassische Anonymisierungstechniken immer eine suboptimale Kombination aus beidem bieten.
Nein. Dies ist ein großer Irrtum und führt nicht zu anonymen Daten. Wenden Sie dies immer noch an, um Ihren Datensatz zu anonymisieren? Dann ist dieser Blog ein Muss für Sie.
Syntho entwickelt Software, um einen völlig neuen Datensatz mit frischen Datensätzen zu generieren. Informationen zur Identifizierung realer Personen sind in einem synthetischen Datensatz einfach nicht vorhanden. Da synthetische Daten künstliche Datensätze enthalten, die von Software generiert wurden, sind personenbezogene Daten einfach nicht vorhanden, was zu einer Situation ohne Datenschutzrisiken führt.
Der entscheidende Unterschied bei Syntho: Wir wenden maschinelles Lernen an. Folglich reproduziert unsere Lösung die Struktur und Eigenschaften des ursprünglichen Datensatzes im synthetischen Datensatz, was zu einer maximalen Datenausnutzung führt. Dementsprechend können Sie bei der Analyse der synthetischen Daten die gleichen Ergebnisse erzielen wie bei der Verwendung der Originaldaten.
Diese Fallstudie zeigt Highlights aus unserem Qualitätsbericht mit verschiedenen Statistiken aus synthetischen Daten, die durch unsere Syntho Engine generiert wurden, im Vergleich zu den Originaldaten.
Zusammenfassend lässt sich sagen, dass synthetische Daten die bevorzugte Lösung sind, um den typischen suboptimalen Kompromiss zwischen Datennutzen und Datenschutz zu überwinden, den Ihnen alle klassischen Anonymisierungstechniken bieten.
Zusammenfassend lässt sich sagen, dass Sie sich aus Sicht der Datendienstleistung und des Datenschutzes immer für synthetische Daten entscheiden sollten, wenn Ihr Anwendungsfall dies zulässt.
Wert für die Analyse | Datenschutzrisiko | |
Synthetische Daten | High | Andere |
Echte (personenbezogene) Daten | High | High |
Manipulierte Daten (durch klassische 'Anonymisierung') | Niedrig-Mittel | Medium-High |
Synthetische Daten von Syntho füllen die Lücken, in denen klassische Anonymisierungstechniken versagen, indem sie beide maximieren Daten-Dienstprogramm und Datenschutz.