Prečo klasická anonymizácia (a pseudonymizácia) nevedie k anonymným údajom

Čo je klasická anonymizácia?

Pri klasickej anonymizácii navrhujeme všetky metodiky, v ktorých sa manipuluje alebo skresľuje pôvodný súbor údajov, aby sa zabránilo spätnému vysledovaniu jednotlivcov.

Typickými príkladmi klasickej anonymizácie, ktoré vidíme v praxi, je zovšeobecnenie, potlačenie / vymazanie, pseudonymizácia a miešanie riadkov a stĺpcov.

Tieto techniky s príslušnými príkladmi.

Technika Pôvodné údaje Manipulované údaje
Zovšeobecnenie 27 rokov Vo veku od 25 do 30 rokov
Potlačenie / stieranie info@syntho.ai xxxx@xxxxxx.xx
Pseudonymizácia Amsterdam hVFD6td3jdHHj78ghdgrewui6
Miešanie riadkov a stĺpcov vyrovnané Zamiešané

Aké sú nevýhody klasickej anonymizácie?

Manipulácia s množinou údajov pomocou klasických anonymizačných techník má za následok dve kľúčové nevýhody:

  1. Deformácia množiny údajov má za následok zníženú kvalitu údajov (tj. Nástroj údajov). Toto zavádza klasický princíp odpadkov z odpadu.
  2. Riziko súkromia sa zníži, ale bude vždy prítomný. Zostáva a manipuluje sa s verziou pôvodného súboru údajov so vzťahmi 1-1.

Ukazujeme tieto 2 kľúčové nevýhody, nástroj na ochranu údajov a ochranu súkromia. Robíme to pomocou nasledujúceho obrázku s aplikovaným potlačením a zovšeobecnením.

Poznámka: obrázky používame na ilustračné účely. Rovnaký princíp platí pre štruktúrované súbory údajov.

Klasická anonymizácia zlyhá
  • Vľavo: malá aplikácia klasickej anonymizácie má za následok reprezentatívnu ilustráciu. Jednotlivca je však možné ľahko identifikovať a riziko pre súkromie je značné.

 

  • Vpravo: dôsledná aplikácia klasickej anonymizácie má za následok silnú ochranu súkromia. Ilustrácia sa však stáva zbytočnou.

Klasické anonymizačné techniky ponúkajú neoptimálnu kombináciu medzi nástrojom na ochranu údajov a ochranou súkromia.

Toto zavádza kompromis medzi nástrojom na ochranu údajov a ochranou súkromia, kde klasické anonymizačné techniky vždy ponúkajú neoptimálnu kombináciu oboch. 

klasická anonymizačná úžitková krivka

Je odstránenie všetkých priamych identifikátorov (napríklad mien) z množiny údajov riešením?

Nie. Toto je veľký omyl a nevedie to k anonymným údajom. Stále to používate ako spôsob anonymizácie svojej množiny údajov? Potom je tento blog pre vás povinným čítaním.

Ako sa líšia syntetické údaje?

Spoločnosť Syntho vyvíja softvér na generovanie úplne nového súboru nových záznamov údajov. Informácie na identifikáciu skutočných jednotlivcov jednoducho nie sú k dispozícii v syntetickom súbore údajov. Pretože syntetické údaje obsahujú umelé údajové záznamy generované softvérom, osobné údaje jednoducho nie sú k dispozícii, čo vedie k situácii bez rizika pre súkromie.

Kľúčový rozdiel v Syntho: aplikujeme strojové učenie. V dôsledku toho naše riešenie reprodukuje štruktúru a vlastnosti pôvodného súboru údajov v syntetickom súbore údajov, čo má za následok maximálnu užitočnosť údajov. V súlade s tým budete môcť pri analýze syntetických údajov získať rovnaké výsledky v porovnaní s použitím pôvodných údajov.

Táto prípadová štúdia demonštruje najdôležitejšie body z našej správy o kvalite, ktorá obsahuje rôzne štatistiky zo syntetických údajov generovaných naším Syntho Engine v porovnaní s pôvodnými údajmi.

Na záver možno povedať, že syntetické údaje sú preferovaným riešením na prekonanie typického neoptimálneho kompromisu medzi nástrojom na ochranu údajov a ochranou súkromia, ktorý vám ponúkajú všetky klasické anonymizačné techniky.

klasická anonymizačná úžitková krivka

Prečo teda používať skutočné (citlivé) údaje, keď môžete používať syntetické údaje?

Na záver by sme chceli povedať, že z hľadiska užitočnosti údajov a ochrany súkromia by ste sa mali vždy rozhodnúť pre syntetické údaje, ak to váš prípad použitia umožňuje.

 Hodnota pre analýzuRiziko súkromia
Syntetické údajevysokýnikto
Skutočné (osobné) údajevysokývysoký
Manipulované údaje (prostredníctvom klasickej „anonymizácie“)Low-MediumStredne vysoká
myšlienka

Syntetické údaje od spoločnosti Syntho vypĺňajú medzery tam, kde klasické anonymizačné techniky nedosahujú maximalizáciou oboch dátová utilita a ochrana súkromia.

Máte záujem?

Preskúmajte s nami pridanú hodnotu syntetických údajov