Hvorfor klassisk anonymisering (og pseudonymisering) ikke resulterer i anonyme data

Denne blog dækker følgende emner:

Hvad er klassisk anonymisering?
Hvad er ulemperne ved klassisk anonymisering?
Hvorfor tilbyder klassiske anonymiseringsteknikker en suboptimal kombination mellem dataudnyttelse og beskyttelse af fortrolige oplysninger ?.
Hvordan er syntetiske data anderledes?
Hvorfor stadig bruge personlige data, hvis du kan bruge syntetiske data?

Hvad er klassisk anonymisering?

Med klassisk anonymisering antyder vi alle metoder, hvor man manipulerer eller forvrænger et originalt datasæt for at forhindre sporing af enkeltpersoner.

Typiske eksempler på klassisk anonymisering, som vi ser i praksis, er generalisering, undertrykkelse / aftørring, pseudonymisering og række og kolonne -blanding.

Herved disse teknikker med tilsvarende eksempler.

Teknik	Oprindelige data	Manipulerede data
Generalisering	27 år gammel	Mellem 25 og 30 år gammel
Undertrykkelse / aftørring	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymisering	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Række og søjle blandes	Alliancefri	Blandet

Hvad er ulemperne ved klassisk anonymisering?

Manipulering af et datasæt med klassiske anonymiseringsteknikker resulterer i 2 nøgle ulemper:

Forvrængning af et datasæt resulterer i nedsat datakvalitet (dvs. dataværktøj). Dette introducerer det klassiske skrald-i skrald-ud princip.
Privatlivsrisiko vil blive reduceret, men vil altid være til stede. Det forbliver og manipuleret version af det originale datasæt med 1-1-relationer.

Vi demonstrerer disse to vigtige ulemper, dataværktøj og beskyttelse af fortrolige oplysninger. Vi gør det med følgende illustration med anvendt undertrykkelse og generalisering.

Bemærk: vi bruger billeder til illustrative formål. Det samme princip gælder for strukturerede datasæt.

Venstre: lidt anvendelse af klassisk anonymisering resulterer i en repræsentativ illustration. Den enkelte kan dog let identificeres, og privatlivets risiko er betydelig.

Højre: alvorlig anvendelse af klassisk anonymisering resulterer i stærk beskyttelse af fortrolige oplysninger. Imidlertid bliver illustrationen ubrugelig.

Klassiske anonymiseringsteknikker tilbyder en suboptimal kombination mellem data-utility og beskyttelse af fortrolige oplysninger.

Dette introducerer afvejningen mellem dataværktøj og beskyttelse af fortrolige oplysninger, hvor klassiske anonymiseringsteknikker altid tilbyder en suboptimal kombination af begge.

Er det en løsning at fjerne alle direkte identifikatorer (f.eks. Navne) fra datasættet?

Nej. Dette er en stor misforståelse og resulterer ikke i anonyme data. Anvender du stadig dette som en måde at anonymisere dit datasæt? Så er denne blog et must -read for dig.

Hvordan er syntetiske data anderledes?

Syntho udvikler software til at generere et helt nyt datasæt med friske dataregistre. Information til identifikation af virkelige individer findes simpelthen ikke i et syntetisk datasæt. Da syntetiske data indeholder kunstige dataregistreringer genereret af software, er personlige data simpelthen ikke til stede, hvilket resulterer i en situation uden fortrolige risici.

Den vigtigste forskel hos Syntho: vi anvender maskinlæring. Derfor reproducerer vores løsning strukturen og egenskaberne for det originale datasæt i det syntetiske datasæt, hvilket resulterer i maksimeret data-nytteværdi. Derfor vil du være i stand til at opnå de samme resultater, når du analyserer de syntetiske data i forhold til at bruge de originale data.

Dette casestudie demonstrerer højdepunkter fra vores kvalitetsrapport, der indeholder forskellige statistikker fra syntetiske data genereret gennem vores Syntho Engine i forhold til de originale data.

Afslutningsvis er syntetiske data den foretrukne løsning til at overvinde den typiske suboptimale afvejning mellem data-utility og beskyttelse af fortrolige oplysninger, som alle klassiske anonymiseringsteknikker tilbyder dig.

Så hvorfor bruge rigtige (følsomme) data, når du kan bruge syntetiske data?

Afslutningsvis bør man fra et dataværktøj og et privatlivsbeskyttelsesperspektiv altid vælge syntetiske data, når din use-case tillader det.

	Værdi til analyse	Privatlivsrisiko
Syntetiske data	Høj	Ingen
Ægte (personlige) data	Høj	Høj
Manipulerede data (gennem klassisk 'anonymisering')	Low-Medium	Medium-Høj

Syntetiske data fra Syntho fylder hullerne, hvor klassiske anonymiseringsteknikker mangler ved at maksimere begge dele data-hjælpeprogram , privatlivsbeskyttelse.

Interesseret?

Udforsk merværdien af syntetiske data med os

BOOK DEMO

Hvad er syntetiske data?

Kvalitetssikringsrapport

Ekstern evaluering af SAS

Syntetiske tidsseriedata

PII-scanner

Syntetiske mock data

Konsekvent kortlægning

Afidentifikation og syntetisering

Regelbaserede syntetiske data

Underindstilling

Implementering og integration

Stik

Udvidede funktioner

Understøttede data

Brugerdokumentation

Planlæg en demo

Priser

Syntetiske data som testdata

Syntetiske data til analyse

Syntetiske data til datadeling

Syntetiske data til produktdemoer

Medicinal

Finansiering

Offentlige organisationer

Brugerdokumentation

Whitepapers og vejledninger

Blog

Webinarer

Casestudier