Prečo klasická anonymizácia (a pseudonymizácia) nevedie k anonymným údajom

Tento blog sa zaoberá nasledujúcimi témami:

Čo je klasická anonymizácia?
Aké sú nevýhody klasickej anonymizácie?
Prečo klasické anonymizačné techniky ponúkajú neoptimálnu kombináciu medzi úplnosťou údajov a ochranou súkromia ?.
Ako sa líšia syntetické údaje?
Prečo stále používať osobné údaje, ak môžete používať syntetické údaje?

Čo je klasická anonymizácia?

Pri klasickej anonymizácii navrhujeme všetky metodiky, v ktorých sa manipuluje alebo skresľuje pôvodný súbor údajov, aby sa zabránilo spätnému vysledovaniu jednotlivcov.

Typickými príkladmi klasickej anonymizácie, ktoré vidíme v praxi, je zovšeobecnenie, potlačenie / vymazanie, pseudonymizácia a miešanie riadkov a stĺpcov.

Tieto techniky s príslušnými príkladmi.

Technika	Pôvodné údaje	Manipulované údaje
Zovšeobecnenie	27 rokov	Vo veku od 25 do 30 rokov
Potlačenie / stieranie	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymizácia	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Miešanie riadkov a stĺpcov	vyrovnané	Zamiešané

Aké sú nevýhody klasickej anonymizácie?

Manipulácia s množinou údajov pomocou klasických anonymizačných techník má za následok dve kľúčové nevýhody:

Deformácia množiny údajov má za následok zníženú kvalitu údajov (tj. Nástroj údajov). Toto zavádza klasický princíp odpadkov z odpadu.
Riziko súkromia sa zníži, ale bude vždy prítomný. Zostáva a manipuluje sa s verziou pôvodného súboru údajov so vzťahmi 1-1.

Ukazujeme tieto 2 kľúčové nevýhody, nástroj na ochranu údajov a ochranu súkromia. Robíme to pomocou nasledujúceho obrázku s aplikovaným potlačením a zovšeobecnením.

Poznámka: obrázky používame na ilustračné účely. Rovnaký princíp platí pre štruktúrované súbory údajov.

Vľavo: malá aplikácia klasickej anonymizácie má za následok reprezentatívnu ilustráciu. Jednotlivca je však možné ľahko identifikovať a riziko pre súkromie je značné.

Vpravo: dôsledná aplikácia klasickej anonymizácie má za následok silnú ochranu súkromia. Ilustrácia sa však stáva zbytočnou.

Klasické anonymizačné techniky ponúkajú neoptimálnu kombináciu medzi nástrojom na ochranu údajov a ochranou súkromia.

Toto zavádza kompromis medzi nástrojom na ochranu údajov a ochranou súkromia, kde klasické anonymizačné techniky vždy ponúkajú neoptimálnu kombináciu oboch.

Je odstránenie všetkých priamych identifikátorov (napríklad mien) z množiny údajov riešením?

Nie. Toto je veľký omyl a nevedie to k anonymným údajom. Stále to používate ako spôsob anonymizácie svojej množiny údajov? Potom je tento blog pre vás povinným čítaním.

Ako sa líšia syntetické údaje?

Spoločnosť Syntho vyvíja softvér na generovanie úplne nového súboru nových záznamov údajov. Informácie na identifikáciu skutočných jednotlivcov jednoducho nie sú k dispozícii v syntetickom súbore údajov. Pretože syntetické údaje obsahujú umelé údajové záznamy generované softvérom, osobné údaje jednoducho nie sú k dispozícii, čo vedie k situácii bez rizika pre súkromie.

Kľúčový rozdiel v Syntho: aplikujeme strojové učenie. V dôsledku toho naše riešenie reprodukuje štruktúru a vlastnosti pôvodného súboru údajov v syntetickom súbore údajov, čo má za následok maximálnu užitočnosť údajov. V súlade s tým budete môcť pri analýze syntetických údajov získať rovnaké výsledky v porovnaní s použitím pôvodných údajov.

Táto prípadová štúdia demonštruje najdôležitejšie body z našej správy o kvalite, ktorá obsahuje rôzne štatistiky zo syntetických údajov generovaných naším Syntho Engine v porovnaní s pôvodnými údajmi.

Na záver možno povedať, že syntetické údaje sú preferovaným riešením na prekonanie typického neoptimálneho kompromisu medzi nástrojom na ochranu údajov a ochranou súkromia, ktorý vám ponúkajú všetky klasické anonymizačné techniky.

Prečo teda používať skutočné (citlivé) údaje, keď môžete používať syntetické údaje?

Na záver by sme chceli povedať, že z hľadiska užitočnosti údajov a ochrany súkromia by ste sa mali vždy rozhodnúť pre syntetické údaje, ak to váš prípad použitia umožňuje.

	Hodnota pre analýzu	Riziko súkromia
Syntetické údaje	vysoký	nikto
Skutočné (osobné) údaje	vysoký	vysoký
Manipulované údaje (prostredníctvom klasickej „anonymizácie“)	Low-Medium	Stredne vysoká

Syntetické údaje od spoločnosti Syntho vypĺňajú medzery tam, kde klasické anonymizačné techniky nedosahujú maximalizáciou oboch dátová utilita a ochrana súkromia.

Máte záujem?

Preskúmajte s nami pridanú hodnotu syntetických údajov

REZERVOVAŤ DEMO

Čo sú syntetické údaje?

Správa o zabezpečení kvality

Externé hodnotenie SAV

Syntetické údaje časových radov

Skener PII

Syntetické falošné údaje

Konzistentné mapovanie

De-identifikácia a syntetizácia

Syntetické údaje založené na pravidlách

Podnastavenie

Nasadenie a integrácia

konektory

Rozšírené funkcie

Podporované údaje

Používateľská dokumentácia

Naplánujte si ukážku

CENNÍK

Syntetické údaje ako údaje z testov

Syntetické údaje pre analytiku

Syntetické údaje na zdieľanie údajov

Syntetické údaje pre ukážky produktov

Zdravotná starostlivosť

Financie

Verejné organizácie

Používateľská dokumentácia

Biele knihy a príručky

Blog

Webináre

Prípadové štúdie