Hvorfor klassisk anonymisering (og pseudonymisering) ikke resulterer i anonyme data

Denne bloggen dekker følgende emner:

Hva er klassisk anonymisering?
Hva er ulempene med klassisk anonymisering?
Hvorfor tilbyr klassiske anonymiseringsteknikker en suboptimal kombinasjon mellom datautnyttelse og personvern ?.
Hvordan er syntetiske data forskjellige?
Hvorfor fortsatt bruke personopplysninger hvis du kan bruke syntetiske data?

Hva er klassisk anonymisering?

Med klassisk anonymisering antyder vi alle metoder der man manipulerer eller forvrenger et originalt datasett for å hindre sporing av enkeltpersoner.

Typiske eksempler på klassisk anonymisering som vi ser i praksis er generalisering, undertrykkelse / tørking, pseudonymisering og rad og kolonne -blanding.

Herved disse teknikkene med tilsvarende eksempler.

Teknikk	Opprinnelige data	Manipulerte data
Generalisering	27 år gammel	Mellom 25 og 30 år gammel
Undertrykkelse / tørking	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymisering	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Rad og kolonne blanding	Justert	Blandet

Hva er ulempene med klassisk anonymisering?

Manipulering av et datasett med klassiske anonymiseringsteknikker resulterer i to viktige ulemper:

Forvrengning av et datasett resulterer i redusert datakvalitet (dvs. dataverktøy). Dette introduserer det klassiske søppel-inn søppel-ut prinsippet.
Personvernrisiko vil bli redusert, men vil alltid være tilstede. Det forblir og manipulert versjon av det originale datasettet med 1-1 relasjoner.

Vi demonstrerer de to viktigste ulempene, dataverktøy og personvern. Vi gjør det med følgende illustrasjon med anvendt undertrykkelse og generalisering.

Merk: Vi bruker bilder for illustrasjonsformål. Det samme prinsippet gjelder for strukturerte datasett.

Venstre: lite bruk av klassisk anonymisering resulterer i en representativ illustrasjon. Imidlertid kan enkeltpersonen identifiseres og personvernrisikoen er betydelig.

Høyre: alvorlig bruk av klassisk anonymisering resulterer i sterkt personvern. Imidlertid blir illustrasjonen ubrukelig.

Klassiske anonymiseringsteknikker gir en suboptimal kombinasjon mellom dataverktøy og personvern.

Dette introduserer avveiningen mellom dataverktøy og personvern, der klassiske anonymiseringsteknikker alltid tilbyr en suboptimal kombinasjon av begge.

Er det en løsning å fjerne alle direkte identifikatorer (for eksempel navn) fra datasettet?

Nei. Dette er en stor misforståelse og resulterer ikke i anonyme data. Bruker du fortsatt dette som en måte å anonymisere datasettet ditt? Da er denne bloggen en må -lese for deg.

Hvordan er syntetiske data forskjellige?

Syntho utvikler programvare for å generere et helt nytt datasett med friske dataposter. Informasjon for å identifisere virkelige individer finnes rett og slett ikke i et syntetisk datasett. Siden syntetiske data inneholder kunstige dataposter generert av programvare, er personlige data ganske enkelt ikke tilstede, noe som resulterer i en situasjon uten personvernrisiko.

Den viktigste forskjellen på Syntho: vi bruker maskinlæring. Følgelig gjengir vår løsning strukturen og egenskapene til det originale datasettet i det syntetiske datasettet, noe som resulterer i maksimert dataverktøy. Følgelig vil du kunne oppnå de samme resultatene når du analyserer de syntetiske dataene sammenlignet med bruk av de originale dataene.

Denne casestudien demonstrerer høydepunkter fra vår kvalitetsrapport som inneholder forskjellige statistikker fra syntetiske data generert gjennom Syntho Engine i forhold til de opprinnelige dataene.

Avslutningsvis er syntetiske data den foretrukne løsningen for å overvinne den typiske suboptimale avveiningen mellom dataverktøy og personvern, som alle klassiske anonymiseringsteknikker tilbyr deg.

Så hvorfor bruke ekte (sensitiv) data når du kan bruke syntetiske data?

Avslutningsvis, fra et dataverktøy og personvernbeskyttelsesperspektiv, bør man alltid velge syntetiske data når brukstilfellet tillater det.

	Verdi for analyse	Personvernrisiko
Syntetiske data	Høy	none
Ekte (personlige) data	Høy	Høy
Manipulerte data (gjennom klassisk 'anonymisering')	Low-Medium	Middels høy

Syntetiske data fra Syntho fyller hullene der klassiske anonymiseringsteknikker kommer til kort ved å maksimere begge deler dataverktøy og personvern.

Interessert?

Utforsk merverdien av syntetiske data med oss

BOK DEMO

Hva er syntetiske data?

Kvalitetssikringsrapport

Ekstern evaluering av SAS

Syntetiske tidsseriedata

PII-skanner

Syntetiske mock-data

Konsekvent kartlegging

Avidentifikasjon og syntetisering

Regelbasert syntetiske data

Underinnstilling

Implementering og integrasjon

Kontakter

Utvidede funksjoner

Støttede data

Brukerdokumentasjon

Planlegg en demo

Priser

Syntetiske data som testdata

Syntetiske data for analyse

Syntetiske data for datadeling

Syntetiske data for produktdemoer

Helsevesen

Finans

Offentlige organisasjoner

Brukerdokumentasjon

Whitepapers og guider

Blogg

Webinarer

Casestudier