Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.
Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redaka i stupaca.
Ovime te tehnike s odgovarajućim primjerima.
Tehnika | Izvorni podaci | Manipulirani podaci |
Generalizacija | 27 godina | Između 25 i 30 godina |
Suzbijanje / brisanje | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimizacija | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Miješanje redaka i stupaca | Poravnati | Izmiješano |
Manipuliranje skupom podataka s klasičnim tehnikama anonimizacije rezultira s dva ključna nedostatka:
Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.
Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.
Ovo uvodi kompromis između korisnog programa za podatke i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje.
Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.
Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka generirane softverom, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.
Ključna razlika u tvrtki Syntho: primjenjujemo strojno učenje. Posljedično, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. Sukladno tome, moći ćete dobiti iste rezultate pri analizi sintetskih podataka u usporedbi s korištenjem izvornih podataka.
Ova studija slučaja prikazuje najvažnije iz našeg izvješća o kvaliteti koje sadrži različite statističke podatke sintetičkih podataka generiranih putem našeg Syntho Enginea u usporedbi s izvornim podacima.
Zaključno, sintetski su podaci poželjno rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.
Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek bi se trebali odlučiti za sintetičke podatke kada to vaš slučaj uporabe dopušta.
Vrijednost za analizu | Rizik privatnosti | |
Sintetički podaci | visok | nijedan |
Pravi (osobni) podaci | visok | visok |
Manipulirani podaci (putem klasične "anonimizacije") | Low-srednje | Srednje Visoko |
Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije nedostaju maksimiziranjem oboje podatkovni uslužni program i zaštita privatnosti.