Proč klasická anonymizace (a pseudonymizace) nevede k anonymním datům

Tento blog se zabývá následujícími tématy:

Co je klasická anonymizace?
Jaké jsou nevýhody klasické anonymizace?
Proč klasické anonymizační techniky nabízejí neoptimální kombinaci mezi úplností dat a ochranou soukromí ?.
Jak se liší syntetická data?
Proč stále používat osobní údaje, když můžete používat syntetická data?

Co je klasická anonymizace?

S klasickou anonymizací implikujeme všechny metodiky, kde člověk manipuluje nebo překrucuje původní datovou sadu, aby zabránil zpětnému vyhledávání jednotlivců.

Typickými příklady klasické anonymizace, které vidíme v praxi, je zobecnění, potlačení / vymazání, pseudonymizace a řádkové a sloupcové míchání.

Tyto techniky s odpovídajícími příklady.

Technika	Původní data	Manipulovaná data
Zobecnění	27 let	Mezi 25 a 30 lety
Potlačení / stírání	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymizace	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Řazení řádků a sloupců	Zarovnaný	Zamíchané

Jaké jsou nevýhody klasické anonymizace?

Manipulace s datovou sadou pomocí klasických anonymizačních technik má za následek 2 klíčové nevýhody:

Deformace datové sady má za následek snížení kvality dat (tj. Datový nástroj). To zavádí klasický princip garbage-in garbage-out.
Riziko soukromí se sníží, ale bude vždy přítomen. Zůstává a manipuluje se s verzí původní datové sady s relacemi 1-1.

Demonstrujeme tyto 2 klíčové nevýhody, datový nástroj a ochranu soukromí. Děláme to na následujícím obrázku s aplikovaným potlačením a zobecněním.

Poznámka: obrázky používáme pro ilustraci. Stejný princip platí pro strukturované datové sady.

Vlevo: malá aplikace klasické anonymizace vede k reprezentativní ilustraci. Jedince je však možné snadno identifikovat a riziko pro soukromí je značné.

Právo: důsledná aplikace klasické anonymizace má za následek silnou ochranu soukromí. Ilustrace se však stává zbytečnou.

Klasické anonymizační techniky nabízejí neoptimální kombinaci mezi nástroji pro ochranu dat a ochranou soukromí.

To zavádí kompromis mezi datovou utilitou a ochranou soukromí, kde klasické anonymizační techniky vždy nabízejí suboptimální kombinaci obou.

Je odstranění všech přímých identifikátorů (například jmen) z datové sady řešením?

Ne. Toto je velká mylná představa a nevede to k anonymním údajům. Stále to používáte jako způsob anonymizace své datové sady? Pak je tento blog pro vás povinnou četbou.

Jak se liší syntetická data?

Syntho vyvíjí software pro generování zcela nové datové sady čerstvých datových záznamů. Informace k identifikaci skutečných osob v syntetické datové sadě prostě nejsou. Protože syntetická data obsahují umělé datové záznamy generované softwarem, osobní údaje jednoduše nejsou k dispozici, což vede k situaci bez rizika pro soukromí.

Klíčový rozdíl v Syntho: aplikujeme strojové učení. V důsledku toho naše řešení reprodukuje strukturu a vlastnosti původní datové sady v syntetické datové sadě, což má za následek maximální užitečnost dat. V souladu s tím budete moci při analýze syntetických dat získat stejné výsledky ve srovnání s použitím původních dat.

Tato případová studie ukazuje srovnání z naší zprávy o kvalitě obsahující různé statistiky ze syntetických dat generovaných naším Syntho Engine ve srovnání s původními daty.

Na závěr lze říci, že syntetická data jsou upřednostňovaným řešením k překonání typického neoptimálního kompromisu mezi nástroji pro ochranu dat a ochranou soukromí, který vám všechny klasické anonymizační techniky nabízejí.

Proč tedy používat skutečná (citlivá) data, když můžete používat syntetická data?

Závěrem lze říci, že z pohledu nástroje pro ochranu dat a ochrany soukromí byste se měli vždy rozhodnout pro syntetická data, pokud to váš případ použití umožňuje.

	Hodnota pro analýzu	Riziko soukromí
Syntetická data	Vysoký	Nevyplněno
Skutečná (osobní) data	Vysoký	Vysoký
Manipulovaná data (prostřednictvím klasické „anonymizace“)	Low-Medium	Středně vysoká

Syntetická data od Syntho vyplňují mezery, kde klasické anonymizační techniky nedosahují maximalizace obou datový nástroj a ochrana soukromí.

Zajímá vás to?

Prozkoumejte s námi přidanou hodnotu syntetických dat

REZERVOVAT DEMO

Co jsou syntetická data?

Zpráva o zajištění kvality

Externí hodnocení SAS

Syntetická data časových řad

Skener PII

Syntetická falešná data

Konzistentní mapování

Deidentifikace a syntetizace

Syntetická data založená na pravidlech

Podmnožina

Nasazení a integrace

Konektory

Rozšířené funkce

Podporovaná data

Uživatelská dokumentace

Naplánujte si ukázku

CENY

Syntetická data jako testovací data

Syntetická data pro analytiku

Syntetická data pro sdílení dat

Syntetická data pro ukázky produktů

Zdravotní péče

Finance

Veřejné organizace

Uživatelská dokumentace

Bílé knihy a průvodce

Blog

Webináře

Ukázkové studie