Zašto klasična anonimizacija (i pseudonimizacija) ne rezultira anonimnim podacima

Što je klasična anonimizacija?

Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.

Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redaka i stupaca.

Ovime te tehnike s odgovarajućim primjerima.

Tehnika Izvorni podaci Manipulirani podaci
Generalizacija 27 godina Između 25 i 30 godina
Suzbijanje / brisanje info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizacija Amsterdam hVFD6td3jdHHj78ghdgrewui6
Miješanje redaka i stupaca Poravnati Izmiješano

Koji su nedostaci klasične anonimizacije?

Manipuliranje skupom podataka s klasičnim tehnikama anonimizacije rezultira s dva ključna nedostatka:

  1. Izobličenje skupa podataka dovodi do smanjenja kvalitete podataka (tj. Uslužnog programa za podatke). Time se uvodi klasični princip odvoza smeća.
  2. Rizik privatnosti će se smanjiti, ali uvijek će biti prisutna. Ostaje i manipulirana verzija izvornog skupa podataka s relacijama 1-1.

Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.

Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.

Klasična anonimizacija ne uspijeva
  • Lijevo: mala primjena klasične anonimizacije rezultira reprezentativnom ilustracijom. Međutim, pojedinac se može lako identificirati, a rizik privatnosti je značajan.

 

  • Pravo: teška primjena klasične anonimizacije rezultira snažnom zaštitom privatnosti. Međutim, ilustracija postaje beskorisna.

Klasične tehnike anonimizacije nude suboptimalnu kombinaciju između korisnosti podataka i zaštite privatnosti.

Ovo uvodi kompromis između korisnog programa za podatke i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje. 

klasična krivulja korisnosti anonimizacije

Je li uklanjanje svih izravnih identifikatora (poput imena) iz skupa podataka rješenje?

Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.

Po čemu se sintetički podaci razlikuju?

Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka generirane softverom, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.

Ključna razlika u tvrtki Syntho: primjenjujemo strojno učenje. Posljedično, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. Sukladno tome, moći ćete dobiti iste rezultate pri analizi sintetskih podataka u usporedbi s korištenjem izvornih podataka.

Ova studija slučaja prikazuje najvažnije iz našeg izvješća o kvaliteti koje sadrži različite statističke podatke sintetičkih podataka generiranih putem našeg Syntho Enginea u usporedbi s izvornim podacima.

Zaključno, sintetski su podaci poželjno rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.

klasična krivulja korisnosti anonimizacije

Dakle, zašto koristiti stvarne (osjetljive) podatke kada možete koristiti sintetičke podatke?

Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek bi se trebali odlučiti za sintetičke podatke kada to vaš slučaj uporabe dopušta.

 Vrijednost za analizuRizik privatnosti
Sintetički podacivisoknijedan
Pravi (osobni) podacivisokvisok
Manipulirani podaci (putem klasične "anonimizacije")Low-srednjeSrednje Visoko
ideja

Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije nedostaju maksimiziranjem oboje podatkovni uslužni program i zaštita privatnosti.

Zainteresiran?

Istražite s nama dodatnu vrijednost sintetičkih podataka