Hvorfor klassisk anonymisering (og pseudonymisering) ikke resulterer i anonyme data

Hva er klassisk anonymisering?

Med klassisk anonymisering antyder vi alle metoder der man manipulerer eller forvrenger et originalt datasett for å hindre sporing av enkeltpersoner.

Typiske eksempler på klassisk anonymisering som vi ser i praksis er generalisering, undertrykkelse / tørking, pseudonymisering og rad og kolonne -blanding.

Herved disse teknikkene med tilsvarende eksempler.

Teknikk Opprinnelige data Manipulerte data
Generalisering 27 år gammel Mellom 25 og 30 år gammel
Undertrykkelse / tørking info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisering Amsterdam hVFD6td3jdHHj78ghdgrewui6
Rad og kolonne blanding Justert Blandet

Hva er ulempene med klassisk anonymisering?

Manipulering av et datasett med klassiske anonymiseringsteknikker resulterer i to viktige ulemper:

  1. Forvrengning av et datasett resulterer i redusert datakvalitet (dvs. dataverktøy). Dette introduserer det klassiske søppel-inn søppel-ut prinsippet.
  2. Personvernrisiko vil bli redusert, men vil alltid være tilstede. Det forblir og manipulert versjon av det originale datasettet med 1-1 relasjoner.

Vi demonstrerer de to viktigste ulempene, dataverktøy og personvern. Vi gjør det med følgende illustrasjon med anvendt undertrykkelse og generalisering.

Merk: Vi bruker bilder for illustrasjonsformål. Det samme prinsippet gjelder for strukturerte datasett.

Klassisk anonymisering mislykkes
  • Venstre: lite bruk av klassisk anonymisering resulterer i en representativ illustrasjon. Imidlertid kan enkeltpersonen identifiseres og personvernrisikoen er betydelig.

 

  • Høyre: alvorlig bruk av klassisk anonymisering resulterer i sterkt personvern. Imidlertid blir illustrasjonen ubrukelig.

Klassiske anonymiseringsteknikker gir en suboptimal kombinasjon mellom dataverktøy og personvern.

Dette introduserer avveiningen mellom dataverktøy og personvern, der klassiske anonymiseringsteknikker alltid tilbyr en suboptimal kombinasjon av begge. 

klassisk anonymiseringsverktøykurve

Er det en løsning å fjerne alle direkte identifikatorer (for eksempel navn) fra datasettet?

Nei. Dette er en stor misforståelse og resulterer ikke i anonyme data. Bruker du fortsatt dette som en måte å anonymisere datasettet ditt? Da er denne bloggen en må -lese for deg.

Hvordan er syntetiske data forskjellige?

Syntho utvikler programvare for å generere et helt nytt datasett med friske dataposter. Informasjon for å identifisere virkelige individer finnes rett og slett ikke i et syntetisk datasett. Siden syntetiske data inneholder kunstige dataposter generert av programvare, er personlige data ganske enkelt ikke tilstede, noe som resulterer i en situasjon uten personvernrisiko.

Den viktigste forskjellen på Syntho: vi bruker maskinlæring. Følgelig gjengir vår løsning strukturen og egenskapene til det originale datasettet i det syntetiske datasettet, noe som resulterer i maksimert dataverktøy. Følgelig vil du kunne oppnå de samme resultatene når du analyserer de syntetiske dataene sammenlignet med bruk av de originale dataene.

Denne casestudien demonstrerer høydepunkter fra vår kvalitetsrapport som inneholder forskjellige statistikker fra syntetiske data generert gjennom Syntho Engine i forhold til de opprinnelige dataene.

Avslutningsvis er syntetiske data den foretrukne løsningen for å overvinne den typiske suboptimale avveiningen mellom dataverktøy og personvern, som alle klassiske anonymiseringsteknikker tilbyr deg.

klassisk anonymiseringsverktøykurve

Så hvorfor bruke ekte (sensitiv) data når du kan bruke syntetiske data?

Avslutningsvis, fra et dataverktøy og personvernbeskyttelsesperspektiv, bør man alltid velge syntetiske data når brukstilfellet tillater det.

 Verdi for analysePersonvernrisiko
Syntetiske dataHøynone
Ekte (personlige) dataHøyHøy
Manipulerte data (gjennom klassisk 'anonymisering')Low-MediumMiddels høy
Tanken

Syntetiske data fra Syntho fyller hullene der klassiske anonymiseringsteknikker kommer til kort ved å maksimere begge deler dataverktøy og personvern.

Interessert?

Utforsk merverdien av syntetiske data med oss