S klasickou anonymizací implikujeme všechny metodiky, kde člověk manipuluje nebo překrucuje původní datovou sadu, aby zabránil zpětnému vyhledávání jednotlivců.
Typickými příklady klasické anonymizace, které vidíme v praxi, je zobecnění, potlačení / vymazání, pseudonymizace a řádkové a sloupcové míchání.
Tyto techniky s odpovídajícími příklady.
Technika | Původní data | Manipulovaná data |
Zobecnění | 27 let | Mezi 25 a 30 lety |
Potlačení / stírání | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonymizace | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Řazení řádků a sloupců | Zarovnaný | Zamíchané |
Manipulace s datovou sadou pomocí klasických anonymizačních technik má za následek 2 klíčové nevýhody:
Demonstrujeme tyto 2 klíčové nevýhody, datový nástroj a ochranu soukromí. Děláme to na následujícím obrázku s aplikovaným potlačením a zobecněním.
Poznámka: obrázky používáme pro ilustraci. Stejný princip platí pro strukturované datové sady.
To zavádí kompromis mezi datovou utilitou a ochranou soukromí, kde klasické anonymizační techniky vždy nabízejí suboptimální kombinaci obou.
Ne. Toto je velká mylná představa a nevede to k anonymním údajům. Stále to používáte jako způsob anonymizace své datové sady? Pak je tento blog pro vás povinnou četbou.
Syntho vyvíjí software pro generování zcela nové datové sady čerstvých datových záznamů. Informace k identifikaci skutečných osob v syntetické datové sadě prostě nejsou. Protože syntetická data obsahují umělé datové záznamy generované softwarem, osobní údaje jednoduše nejsou k dispozici, což vede k situaci bez rizika pro soukromí.
Klíčový rozdíl v Syntho: aplikujeme strojové učení. V důsledku toho naše řešení reprodukuje strukturu a vlastnosti původní datové sady v syntetické datové sadě, což má za následek maximální užitečnost dat. V souladu s tím budete moci při analýze syntetických dat získat stejné výsledky ve srovnání s použitím původních dat.
Tato případová studie ukazuje srovnání z naší zprávy o kvalitě obsahující různé statistiky ze syntetických dat generovaných naším Syntho Engine ve srovnání s původními daty.
Na závěr lze říci, že syntetická data jsou upřednostňovaným řešením k překonání typického neoptimálního kompromisu mezi nástroji pro ochranu dat a ochranou soukromí, který vám všechny klasické anonymizační techniky nabízejí.
Závěrem lze říci, že z pohledu nástroje pro ochranu dat a ochrany soukromí byste se měli vždy rozhodnout pro syntetická data, pokud to váš případ použití umožňuje.
Hodnota pro analýzu | Riziko soukromí | |
Syntetická data | Vysoký | Nevyplněno |
Skutečná (osobní) data | Vysoký | Vysoký |
Manipulovaná data (prostřednictvím klasické „anonymizace“) | Low-Medium | Středně vysoká |
Syntetická data od Syntho vyplňují mezery, kde klasické anonymizační techniky nedosahují maximalizace obou datový nástroj a ochrana soukromí.