对于经典的匿名化,我们暗示了所有方法论,其中一个人操纵或扭曲原始数据集以阻碍追溯个人。
我们在实践中看到的经典匿名化的典型例子是泛化、抑制/擦除、假名化和行列改组。
特此将那些技术与相应的例子结合起来。
技术 | 原始数据 | 操纵数据 |
推广 | 27岁 | 在25和30岁之间 |
抑制/擦拭 | info@syntho.ai | xxxx@xxxxxx.xx |
假名化 | 阿姆斯特丹 | HVFD6td3jdHHj78ghdgrewui6 |
行和列改组 | 对齐 | 洗牌 |
使用经典的匿名化技术处理数据集会导致两个主要缺点:
我们展示了这两个主要缺点,数据效用和隐私保护。 我们通过下图的应用抑制和泛化来做到这一点。
注意:我们使用图像来说明目的。 同样的原则适用于结构化数据集。
这引入了数据效用和隐私保护之间的权衡,其中经典的匿名化技术总是提供两者的次优组合。
不。这是一个很大的误解,不会导致匿名数据。 您是否仍然应用这种方式来匿名化您的数据集? 那么这个博客对你来说是必读的。
Syntho 开发软件以生成全新数据记录的全新数据集。 用于识别真实个体的信息根本不存在于合成数据集中。 由于合成数据包含由软件生成的人工数据记录,因此根本不存在个人数据,从而导致没有隐私风险的情况。
Syntho 的主要区别在于:我们应用机器学习。 因此,我们的解决方案在合成数据集中重现了原始数据集的结构和属性,从而最大限度地提高了数据效用。 因此,与使用原始数据相比,您在分析合成数据时将能够获得相同的结果。
这个案例研究 展示了我们质量报告中的亮点,其中包含与原始数据相比,通过我们的 Syntho Engine 生成的合成数据的各种统计数据。
总之,合成数据是克服数据效用和隐私保护之间典型的次优权衡的首选解决方案,所有经典的匿名化技术都为您提供。
总之,从数据效用和隐私保护的角度来看,当您的用例允许时,应该始终选择合成数据。
分析价值 | 隐私风险 | |
综合数据 | 高 | 不包含 |
真实(个人)数据 | 高 | 高 |
操纵数据(通过经典的“匿名化”) | 低 - 中 | 中等偏上 |
Syntho 的合成数据通过最大化两者填补了经典匿名化技术不足的空白 数据效用 和 隐私保护.