Zašto klasična anonimizacija (i pseudonimizacija) ne rezultira anonimnim podacima

Šta je klasična anonimizacija?

Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.

Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redova i stupaca.

Ovim tehnikama s odgovarajućim primjerima.

tehnika Originalni podaci Manipulirani podaci
generalizacija 27 godina Između 25 i 30 godina
Suzbijanje / brisanje info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizacija Amsterdam hVFD6td3jdHHj78ghdgrewui6
Miješanje redova i kolona Poravnato Shuffled

Koji su nedostaci klasične anonimizacije?

Manipulacija skupom podataka s klasičnim tehnikama anonimizacije rezultira u 2 ključna nedostatka:

  1. Izobličenje skupa podataka dovodi do smanjenja kvalitete podataka (tj. Uslužnog programa za podatke). Ovo uvodi klasični princip odlaganja smeća u smeće.
  2. Rizik privatnosti će se smanjiti, ali uvek će biti prisutno. Ostaje i manipulira verzija izvornog skupa podataka s relacijama 1-1.

Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.

Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.

Klasična anonimizacija ne uspijeva
  • Lijevo: mala primjena klasične anonimizacije rezultira reprezentativnom ilustracijom. Međutim, pojedinac se može lako identificirati, a rizik privatnosti je značajan.

 

  • Desno: teška primjena klasične anonimizacije rezultira snažnom zaštitom privatnosti. Međutim, ilustracija postaje beskorisna.

Klasične tehnike anonimizacije nude suboptimalnu kombinaciju između korisnosti podataka i zaštite privatnosti.

Ovo uvodi kompromis između korisnosti podataka i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje. 

klasična krivulja korisnosti anonimizacije

Je li uklanjanje svih izravnih identifikatora (poput imena) iz skupa podataka rješenje?

Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.

Po čemu se sintetički podaci razlikuju?

Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka koje generira softver, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.

Ključna razlika na Synthu: primjenjujemo mašinsko učenje. Shodno tome, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. U skladu s tim, moći ćete dobiti iste rezultate pri analizi sintetičkih podataka u usporedbi s korištenjem izvornih podataka.

Ova studija slučaja prikazuje vrhunce iz našeg izvještaja o kvaliteti koji sadrži različite statističke podatke iz sintetičkih podataka generiranih putem našeg Syntho Engine -a u usporedbi s izvornim podacima.

U zaključku, sintetički podaci su preferirano rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.

klasična krivulja korisnosti anonimizacije

Dakle, zašto koristiti stvarne (osjetljive) podatke kada možete koristiti sintetičke podatke?

Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek se treba odlučiti za sintetičke podatke kada to vaš slučaj upotrebe dopušta.

 Vrijednost za analizuRizik privatnosti
Sintetički podacivisoknijedan
Pravi (lični) podacivisokvisok
Manipulirani podaci (putem klasične "anonimizacije")Nisko-srednjiSrednje-visoko
ideja

Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije ne uspijevaju maksimiziranjem oboje uslužni program za podatke i zaštita privatnosti.

Zainteresovani?

Istražite s nama dodatnu vrijednost sintetičkih podataka