Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.
Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redova i stupaca.
Ovim tehnikama s odgovarajućim primjerima.
tehnika | Originalni podaci | Manipulirani podaci |
generalizacija | 27 godina | Između 25 i 30 godina |
Suzbijanje / brisanje | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimizacija | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Miješanje redova i kolona | Poravnato | Shuffled |
Manipulacija skupom podataka s klasičnim tehnikama anonimizacije rezultira u 2 ključna nedostatka:
Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.
Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.
Ovo uvodi kompromis između korisnosti podataka i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje.
Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.
Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka koje generira softver, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.
Ključna razlika na Synthu: primjenjujemo mašinsko učenje. Shodno tome, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. U skladu s tim, moći ćete dobiti iste rezultate pri analizi sintetičkih podataka u usporedbi s korištenjem izvornih podataka.
Ova studija slučaja prikazuje vrhunce iz našeg izvještaja o kvaliteti koji sadrži različite statističke podatke iz sintetičkih podataka generiranih putem našeg Syntho Engine -a u usporedbi s izvornim podacima.
U zaključku, sintetički podaci su preferirano rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.
Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek se treba odlučiti za sintetičke podatke kada to vaš slučaj upotrebe dopušta.
Vrijednost za analizu | Rizik privatnosti | |
Sintetički podaci | visok | nijedan |
Pravi (lični) podaci | visok | visok |
Manipulirani podaci (putem klasične "anonimizacije") | Nisko-srednji | Srednje-visoko |
Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije ne uspijevaju maksimiziranjem oboje uslužni program za podatke i zaštita privatnosti.