Hvorfor klassisk anonymisering (og pseudonymisering) ikke resulterer i anonyme data

Hvad er klassisk anonymisering?

Med klassisk anonymisering antyder vi alle metoder, hvor man manipulerer eller forvrænger et originalt datasæt for at forhindre sporing af enkeltpersoner.

Typiske eksempler på klassisk anonymisering, som vi ser i praksis, er generalisering, undertrykkelse / aftørring, pseudonymisering og række og kolonne -blanding.

Herved disse teknikker med tilsvarende eksempler.

Teknik Oprindelige data Manipulerede data
Generalisering 27 år gammel Mellem 25 og 30 år gammel
Undertrykkelse / aftørring info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisering Amsterdam hVFD6td3jdHHj78ghdgrewui6
Række og søjle blandes Alliancefri Blandet

Hvad er ulemperne ved klassisk anonymisering?

Manipulering af et datasæt med klassiske anonymiseringsteknikker resulterer i 2 nøgle ulemper:

  1. Forvrængning af et datasæt resulterer i nedsat datakvalitet (dvs. dataværktøj). Dette introducerer det klassiske skrald-i skrald-ud princip.
  2. Privatlivsrisiko vil blive reduceret, men vil altid være til stede. Det forbliver og manipuleret version af det originale datasæt med 1-1-relationer.

Vi demonstrerer disse to vigtige ulemper, dataværktøj og beskyttelse af fortrolige oplysninger. Vi gør det med følgende illustration med anvendt undertrykkelse og generalisering.

Bemærk: vi bruger billeder til illustrative formål. Det samme princip gælder for strukturerede datasæt.

Klassisk anonymisering mislykkes
  • Venstre: lidt anvendelse af klassisk anonymisering resulterer i en repræsentativ illustration. Den enkelte kan dog let identificeres, og privatlivets risiko er betydelig.

 

  • Højre: alvorlig anvendelse af klassisk anonymisering resulterer i stærk beskyttelse af fortrolige oplysninger. Imidlertid bliver illustrationen ubrugelig.

Klassiske anonymiseringsteknikker tilbyder en suboptimal kombination mellem data-utility og beskyttelse af fortrolige oplysninger.

Dette introducerer afvejningen mellem dataværktøj og beskyttelse af fortrolige oplysninger, hvor klassiske anonymiseringsteknikker altid tilbyder en suboptimal kombination af begge. 

klassisk anonymiseringskurve

Er det en løsning at fjerne alle direkte identifikatorer (f.eks. Navne) fra datasættet?

Nej. Dette er en stor misforståelse og resulterer ikke i anonyme data. Anvender du stadig dette som en måde at anonymisere dit datasæt? Så er denne blog et must -read for dig.

Hvordan er syntetiske data anderledes?

Syntho udvikler software til at generere et helt nyt datasæt med friske dataregistre. Information til identifikation af virkelige individer findes simpelthen ikke i et syntetisk datasæt. Da syntetiske data indeholder kunstige dataregistreringer genereret af software, er personlige data simpelthen ikke til stede, hvilket resulterer i en situation uden fortrolige risici.

Den vigtigste forskel hos Syntho: vi anvender maskinlæring. Derfor reproducerer vores løsning strukturen og egenskaberne for det originale datasæt i det syntetiske datasæt, hvilket resulterer i maksimeret data-nytteværdi. Derfor vil du være i stand til at opnå de samme resultater, når du analyserer de syntetiske data i forhold til at bruge de originale data.

Dette casestudie demonstrerer højdepunkter fra vores kvalitetsrapport, der indeholder forskellige statistikker fra syntetiske data genereret gennem vores Syntho Engine i forhold til de originale data.

Afslutningsvis er syntetiske data den foretrukne løsning til at overvinde den typiske suboptimale afvejning mellem data-utility og beskyttelse af fortrolige oplysninger, som alle klassiske anonymiseringsteknikker tilbyder dig.

klassisk anonymiseringskurve

Så hvorfor bruge rigtige (følsomme) data, når du kan bruge syntetiske data?

Afslutningsvis bør man fra et dataværktøj og et privatlivsbeskyttelsesperspektiv altid vælge syntetiske data, når din use-case tillader det.

 Værdi til analysePrivatlivsrisiko
Syntetiske dataHøjIngen
Ægte (personlige) dataHøjHøj
Manipulerede data (gennem klassisk 'anonymisering')Low-MediumMedium-Høj
idé

Syntetiske data fra Syntho fylder hullerne, hvor klassiske anonymiseringsteknikker mangler ved at maksimere begge dele data-hjælpeprogram , privatlivsbeskyttelse.

Interesseret?

Udforsk merværdien af ​​syntetiske data med os