Zašto klasična anonimizacija (i pseudonimizacija) ne rezultira anonimnim podacima

Ovaj blog pokriva sljedeće teme:

Što je klasična anonimizacija?
Koji su nedostaci klasične anonimizacije?
Zašto klasične tehnike anonimizacije nude suboptimalnu kombinaciju između potpunosti podataka i zaštite privatnosti ?.
Po čemu se sintetički podaci razlikuju?
Zašto biste i dalje koristili osobne podatke ako možete koristiti sintetičke podatke?

Što je klasična anonimizacija?

Klasičnom anonimizacijom podrazumijevamo sve metodologije u kojima se manipulira ili iskrivljuje izvorni skup podataka kako bi se spriječilo praćenje pojedinaca.

Tipični primjeri klasične anonimizacije koje vidimo u praksi su generalizacija, potiskivanje / brisanje, pseudonimizacija i miješanje redaka i stupaca.

Ovime te tehnike s odgovarajućim primjerima.

Tehnika	Izvorni podaci	Manipulirani podaci
Generalizacija	27 godina	Između 25 i 30 godina
Suzbijanje / brisanje	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimizacija	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Miješanje redaka i stupaca	Poravnati	Izmiješano

Koji su nedostaci klasične anonimizacije?

Manipuliranje skupom podataka s klasičnim tehnikama anonimizacije rezultira s dva ključna nedostatka:

Izobličenje skupa podataka dovodi do smanjenja kvalitete podataka (tj. Uslužnog programa za podatke). Time se uvodi klasični princip odvoza smeća.
Rizik privatnosti će se smanjiti, ali uvijek će biti prisutna. Ostaje i manipulirana verzija izvornog skupa podataka s relacijama 1-1.

Pokazujemo ta dva ključna nedostatka, korisnost podataka i zaštitu privatnosti. To činimo sljedećom ilustracijom s primijenjenim potiskivanjem i generalizacijom.

Napomena: slike koristimo u ilustrativne svrhe. Isti princip vrijedi i za strukturirane skupove podataka.

Lijevo: mala primjena klasične anonimizacije rezultira reprezentativnom ilustracijom. Međutim, pojedinac se može lako identificirati, a rizik privatnosti je značajan.

Pravo: teška primjena klasične anonimizacije rezultira snažnom zaštitom privatnosti. Međutim, ilustracija postaje beskorisna.

Klasične tehnike anonimizacije nude suboptimalnu kombinaciju između korisnosti podataka i zaštite privatnosti.

Ovo uvodi kompromis između korisnog programa za podatke i zaštite privatnosti, gdje klasične tehnike anonimizacije uvijek nude suboptimalnu kombinaciju oboje.

Je li uklanjanje svih izravnih identifikatora (poput imena) iz skupa podataka rješenje?

Ne. Ovo je velika zabluda i ne rezultira anonimnim podacima. Primjenjujete li još uvijek ovo kao način za anonimizaciju vašeg skupa podataka? Onda ovaj blog morate pročitati za vas.

Po čemu se sintetički podaci razlikuju?

Syntho razvija softver za generiranje potpuno novog skupa svježih podataka. Podaci za identifikaciju stvarnih pojedinaca jednostavno nisu prisutni u sintetičkom skupu podataka. Budući da sintetički podaci sadrže umjetne zapise podataka generirane softverom, osobni podaci jednostavno nisu prisutni što rezultira situacijom bez rizika za privatnost.

Ključna razlika u tvrtki Syntho: primjenjujemo strojno učenje. Posljedično, naše rješenje reproducira strukturu i svojstva izvornog skupa podataka u sintetičkom skupu podataka što rezultira maksimalnom korisnošću podataka. Sukladno tome, moći ćete dobiti iste rezultate pri analizi sintetskih podataka u usporedbi s korištenjem izvornih podataka.

Ova studija slučaja prikazuje najvažnije iz našeg izvješća o kvaliteti koje sadrži različite statističke podatke sintetičkih podataka generiranih putem našeg Syntho Enginea u usporedbi s izvornim podacima.

Zaključno, sintetski su podaci poželjno rješenje za prevladavanje tipičnog, neoptimalnog kompromisa između korisnosti podataka i zaštite privatnosti, koji vam nude sve klasične tehnike anonimizacije.

Dakle, zašto koristiti stvarne (osjetljive) podatke kada možete koristiti sintetičke podatke?

Zaključno, sa stanovišta korisnosti podataka i zaštite privatnosti, uvijek bi se trebali odlučiti za sintetičke podatke kada to vaš slučaj uporabe dopušta.

	Vrijednost za analizu	Rizik privatnosti
Sintetički podaci	visok	nijedan
Pravi (osobni) podaci	visok	visok
Manipulirani podaci (putem klasične "anonimizacije")	Low-srednje	Srednje Visoko

Sintetički podaci tvrtke Syntho popunjavaju praznine u kojima klasične tehnike anonimizacije nedostaju maksimiziranjem oboje podatkovni uslužni program i zaštita privatnosti.

Zainteresiran?

Istražite s nama dodatnu vrijednost sintetičkih podataka

KNJIGA DEMO

Što su sintetički podaci?

Izvješće o osiguranju kvalitete

Vanjska evaluacija od strane SAS-a

Vremenske serije sintetičkih podataka

Skener PII

Sintetički lažni podaci

Dosljedno preslikavanje

Deidentifikacija i sintetizacija

Sintetički podaci temeljeni na pravilima

Podskup

Implementacija i integracija

Priključnice

Proširene mogućnosti

Podržani podaci

Korisnička dokumentacija

Zakažite demo

Cijene

Sintetički podaci kao testni podaci

Sintetski podaci za analitiku

Sintetički podaci za dijeljenje podataka

Sintetički podaci za demo proizvode

Zdravstvo

Financije

Javne organizacije

Korisnička dokumentacija

Bijele knjige i vodiči

Blog

Webinari

Studije slučaja