Proč klasická anonymizace (a pseudonymizace) nevede k anonymním datům

Co je klasická anonymizace?

S klasickou anonymizací implikujeme všechny metodiky, kde člověk manipuluje nebo překrucuje původní datovou sadu, aby zabránil zpětnému vyhledávání jednotlivců.

Typickými příklady klasické anonymizace, které vidíme v praxi, je zobecnění, potlačení / vymazání, pseudonymizace a řádkové a sloupcové míchání.

Tyto techniky s odpovídajícími příklady.

Technika Původní data Manipulovaná data
Zobecnění 27 let Mezi 25 a 30 lety
Potlačení / stírání info@syntho.ai xxxx@xxxxxx.xx
Pseudonymizace Amsterdam hVFD6td3jdHHj78ghdgrewui6
Řazení řádků a sloupců Zarovnaný Zamíchané

Jaké jsou nevýhody klasické anonymizace?

Manipulace s datovou sadou pomocí klasických anonymizačních technik má za následek 2 klíčové nevýhody:

  1. Deformace datové sady má za následek snížení kvality dat (tj. Datový nástroj). To zavádí klasický princip garbage-in garbage-out.
  2. Riziko soukromí se sníží, ale bude vždy přítomen. Zůstává a manipuluje se s verzí původní datové sady s relacemi 1-1.

Demonstrujeme tyto 2 klíčové nevýhody, datový nástroj a ochranu soukromí. Děláme to na následujícím obrázku s aplikovaným potlačením a zobecněním.

Poznámka: obrázky používáme pro ilustraci. Stejný princip platí pro strukturované datové sady.

Klasická anonymizace selže
  • Vlevo: malá aplikace klasické anonymizace vede k reprezentativní ilustraci. Jedince je však možné snadno identifikovat a riziko pro soukromí je značné.

 

  • Právo: důsledná aplikace klasické anonymizace má za následek silnou ochranu soukromí. Ilustrace se však stává zbytečnou.

Klasické anonymizační techniky nabízejí neoptimální kombinaci mezi nástroji pro ochranu dat a ochranou soukromí.

To zavádí kompromis mezi datovou utilitou a ochranou soukromí, kde klasické anonymizační techniky vždy nabízejí suboptimální kombinaci obou. 

klasická anonymizační užitková křivka

Je odstranění všech přímých identifikátorů (například jmen) z datové sady řešením?

Ne. Toto je velká mylná představa a nevede to k anonymním údajům. Stále to používáte jako způsob anonymizace své datové sady? Pak je tento blog pro vás povinnou četbou.

Jak se liší syntetická data?

Syntho vyvíjí software pro generování zcela nové datové sady čerstvých datových záznamů. Informace k identifikaci skutečných osob v syntetické datové sadě prostě nejsou. Protože syntetická data obsahují umělé datové záznamy generované softwarem, osobní údaje jednoduše nejsou k dispozici, což vede k situaci bez rizika pro soukromí.

Klíčový rozdíl v Syntho: aplikujeme strojové učení. V důsledku toho naše řešení reprodukuje strukturu a vlastnosti původní datové sady v syntetické datové sadě, což má za následek maximální užitečnost dat. V souladu s tím budete moci při analýze syntetických dat získat stejné výsledky ve srovnání s použitím původních dat.

Tato případová studie ukazuje srovnání z naší zprávy o kvalitě obsahující různé statistiky ze syntetických dat generovaných naším Syntho Engine ve srovnání s původními daty.

Na závěr lze říci, že syntetická data jsou upřednostňovaným řešením k překonání typického neoptimálního kompromisu mezi nástroji pro ochranu dat a ochranou soukromí, který vám všechny klasické anonymizační techniky nabízejí.

klasická anonymizační užitková křivka

Proč tedy používat skutečná (citlivá) data, když můžete používat syntetická data?

Závěrem lze říci, že z pohledu nástroje pro ochranu dat a ochrany soukromí byste se měli vždy rozhodnout pro syntetická data, pokud to váš případ použití umožňuje.

 Hodnota pro analýzuRiziko soukromí
Syntetická dataVysokýNevyplněno
Skutečná (osobní) dataVysokýVysoký
Manipulovaná data (prostřednictvím klasické „anonymizace“)Low-MediumStředně vysoká
myšlenka

Syntetická data od Syntho vyplňují mezery, kde klasické anonymizační techniky nedosahují maximalizace obou datový nástroj  a  ochrana soukromí.

Zajímá vás to?

Prozkoumejte s námi přidanou hodnotu syntetických dat