Zašto klasična anonimizacija (i pseudonimizacija) ne rezultira anonimnim podacima

Ovaj blog pokriva sljedeće teme:

Šta je klasična anonimizacija?
Koji su nedostaci klasične anonimizacije?
Zašto klasične tehnike anonimizacije nude suboptimalnu kombinaciju između potpunosti podataka i zaštite privatnosti ?.
Po čemu se sintetički podaci razlikuju?
Zašto biste i dalje koristili lične podatke ako možete koristiti sintetičke podatke?

Šta je klasična anonimizacija?

Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.

Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redova i stupaca.

Ovim tehnikama s odgovarajućim primjerima.

tehnika	Originalni podaci	Manipulirani podaci
generalizacija	27 godina	Između 25 i 30 godina
Suzbijanje / brisanje	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimizacija	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Miješanje redova i kolona	Poravnato	Shuffled

Koji su nedostaci klasične anonimizacije?

Manipulacija skupom podataka s klasičnim tehnikama anonimizacije rezultira u 2 ključna nedostatka:

Izobličenje skupa podataka dovodi do smanjenja kvalitete podataka (tj. Uslužnog programa za podatke). Ovo uvodi klasični princip odlaganja smeća u smeće.
Rizik privatnosti će se smanjiti, ali uvek će biti prisutno. Ostaje i manipulira verzija izvornog skupa podataka s relacijama 1-1.

Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.

Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.

Lijevo: mala primjena klasične anonimizacije rezultira reprezentativnom ilustracijom. Međutim, pojedinac se može lako identificirati, a rizik privatnosti je značajan.

Desno: teška primjena klasične anonimizacije rezultira snažnom zaštitom privatnosti. Međutim, ilustracija postaje beskorisna.

Klasične tehnike anonimizacije nude suboptimalnu kombinaciju između korisnosti podataka i zaštite privatnosti.

Ovo uvodi kompromis između korisnosti podataka i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje.

Je li uklanjanje svih izravnih identifikatora (poput imena) iz skupa podataka rješenje?

Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.

Po čemu se sintetički podaci razlikuju?

Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka koje generira softver, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.

Ključna razlika na Synthu: primjenjujemo mašinsko učenje. Shodno tome, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. U skladu s tim, moći ćete dobiti iste rezultate pri analizi sintetičkih podataka u usporedbi s korištenjem izvornih podataka.

Ova studija slučaja prikazuje vrhunce iz našeg izvještaja o kvaliteti koji sadrži različite statističke podatke iz sintetičkih podataka generiranih putem našeg Syntho Engine -a u usporedbi s izvornim podacima.

U zaključku, sintetički podaci su preferirano rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.

Dakle, zašto koristiti stvarne (osjetljive) podatke kada možete koristiti sintetičke podatke?

Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek se treba odlučiti za sintetičke podatke kada to vaš slučaj upotrebe dopušta.

	Vrijednost za analizu	Rizik privatnosti
Sintetički podaci	visok	nijedan
Pravi (lični) podaci	visok	visok
Manipulirani podaci (putem klasične "anonimizacije")	Nisko-srednji	Srednje-visoko

Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije ne uspijevaju maksimiziranjem oboje uslužni program za podatke i zaštita privatnosti.

Zainteresovani?

Istražite s nama dodatnu vrijednost sintetičkih podataka

KNJIGA DEMO

Šta su sintetički podaci?

Izvještaj o osiguranju kvaliteta

Eksterna evaluacija od strane SAS-a

Sintetički podaci vremenskih serija

PII skener

Sintetički lažni podaci

Konzistentno mapiranje

Deidentifikacija i sintetizacija

Sintetički podaci zasnovani na pravilima

Podpostavka

Postavljanje i integracija

konektori

Proširene karakteristike

Podržani podaci

Korisnička dokumentacija

Zakažite demo

Cijene

Sintetički podaci kao testni podaci

Sintetički podaci za analitiku

Sintetički podaci za dijeljenje podataka

Sintetički podaci za demonstracije proizvoda

Zdravstvo

finansije

Javne organizacije

Korisnička dokumentacija

Bijeli papiri i vodiči

Blog

Webinari

studije slučaja