Med klassisk anonymisering antyder vi alle metoder der man manipulerer eller forvrenger et originalt datasett for å hindre sporing av enkeltpersoner.
Typiske eksempler på klassisk anonymisering som vi ser i praksis er generalisering, undertrykkelse / tørking, pseudonymisering og rad og kolonne -blanding.
Herved disse teknikkene med tilsvarende eksempler.
Teknikk | Opprinnelige data | Manipulerte data |
Generalisering | 27 år gammel | Mellom 25 og 30 år gammel |
Undertrykkelse / tørking | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymisering | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Rad og kolonne blanding | Justert | Blandet |
Manipulering av et datasett med klassiske anonymiseringsteknikker resulterer i to viktige ulemper:
Vi demonstrerer de to viktigste ulempene, dataverktøy og personvern. Vi gjør det med følgende illustrasjon med anvendt undertrykkelse og generalisering.
Merk: Vi bruker bilder for illustrasjonsformål. Det samme prinsippet gjelder for strukturerte datasett.
Dette introduserer avveiningen mellom dataverktøy og personvern, der klassiske anonymiseringsteknikker alltid tilbyr en suboptimal kombinasjon av begge.
Nei. Dette er en stor misforståelse og resulterer ikke i anonyme data. Bruker du fortsatt dette som en måte å anonymisere datasettet ditt? Da er denne bloggen en må -lese for deg.
Syntho utvikler programvare for å generere et helt nytt datasett med friske dataposter. Informasjon for å identifisere virkelige individer finnes rett og slett ikke i et syntetisk datasett. Siden syntetiske data inneholder kunstige dataposter generert av programvare, er personlige data ganske enkelt ikke tilstede, noe som resulterer i en situasjon uten personvernrisiko.
Den viktigste forskjellen på Syntho: vi bruker maskinlæring. Følgelig gjengir vår løsning strukturen og egenskapene til det originale datasettet i det syntetiske datasettet, noe som resulterer i maksimert dataverktøy. Følgelig vil du kunne oppnå de samme resultatene når du analyserer de syntetiske dataene sammenlignet med bruk av de originale dataene.
Denne casestudien demonstrerer høydepunkter fra vår kvalitetsrapport som inneholder forskjellige statistikker fra syntetiske data generert gjennom Syntho Engine i forhold til de opprinnelige dataene.
Avslutningsvis er syntetiske data den foretrukne løsningen for å overvinne den typiske suboptimale avveiningen mellom dataverktøy og personvern, som alle klassiske anonymiseringsteknikker tilbyr deg.
Avslutningsvis, fra et dataverktøy og personvernbeskyttelsesperspektiv, bør man alltid velge syntetiske data når brukstilfellet tillater det.
Verdi for analyse | Personvernrisiko | |
Syntetiske data | Høy | none |
Ekte (personlige) data | Høy | Høy |
Manipulerte data (gjennom klassisk 'anonymisering') | Low-Medium | Middels høy |
Syntetiske data fra Syntho fyller hullene der klassiske anonymiseringsteknikker kommer til kort ved å maksimere begge deler dataverktøy og personvern.