为什么经典匿名化(和假名化)不会产生匿名数据

什么是经典匿名化?

对于经典的匿名化,我们暗示了所有方法论,其中一个人操纵或扭曲原始数据集以阻碍追溯个人。

我们在实践中看到的经典匿名化的典型例子是泛化、抑制/擦除、假名化和行列改组。

特此将那些技术与相应的例子结合起来。

技术 原始数据 操纵数据
推广 27岁 在25和30岁之间
抑制/擦拭 info@syntho.ai xxxx@xxxxxx.xx
假名化 阿姆斯特丹 HVFD6td3jdHHj78ghdgrewui6
行和列改组 对齐 洗牌

经典匿名化的缺点是什么?

使用经典的匿名化技术处理数据集会导致两个主要缺点:

  1. 扭曲数据集会导致数据质量下降(即数据效用)。 这介绍了经典的垃圾进垃圾出原则。
  2. 隐私风险 会减少,但 将永远存在. 它保留并操纵原始数据集的版本,具有 1-1 关系。

我们展示了这两个主要缺点,数据效用和隐私保护。 我们通过下图的应用抑制和泛化来做到这一点。

注意:我们使用图像来说明目的。 同样的原则适用于结构化数据集。

经典匿名化失败
  • 左: 经典匿名化的很少应用导致了代表性的插图。 但是,个人很容易被识别并且隐私风险很大。

 

  • 右: 经典匿名化的严格应用导致强大的隐私保护。 然而,插图变得毫无用处。

经典的匿名化技术提供了数据效用和隐私保护之间的次优组合。

这引入了数据效用和隐私保护之间的权衡,其中经典的匿名化技术总是提供两者的次优组合。 

经典匿名效用曲线

从数据集中删除所有直接标识符(例如名称)是一种解决方案吗?

不。这是一个很大的误解,不会导致匿名数据。 您是否仍然应用这种方式来匿名化您的数据集? 那么这个博客对你来说是必读的。

合成数据有何不同?

Syntho 开发软件以生成全新数据记录的全新数据集。 用于识别真实个体的信息根本不存在于合成数据集中。 由于合成数据包含由软件生成的人工数据记录,因此根本不存在个人数据,从而导致没有隐私风险的情况。

Syntho 的主要区别在于:我们应用机器学习。 因此,我们的解决方案在合成数据集中重现了原始数据集的结构和属性,从而最大限度地提高了数据效用。 因此,与使用原始数据相比,您在分析合成数据时将能够获得相同的结果。

这个案例研究 展示了我们质量报告中的亮点,其中包含与原始数据相比,通过我们的 Syntho Engine 生成的合成数据的各种统计数据。

总之,合成数据是克服数据效用和隐私保护之间典型的次优权衡的首选解决方案,所有经典的匿名化技术都为您提供。

经典匿名效用曲线

那么,当您可以使用合成数据时,为什么还要使用真实(敏感)数据呢?

总之,从数据效用和隐私保护的角度来看,当您的用例允许时,应该始终选择合成数据。

 分析价值隐私风险
综合数据不包含
真实(个人)数据
操纵数据(通过经典的“匿名化”)低 - 中中等偏上
主意

Syntho 的合成数据通过最大化两者填补了经典匿名化技术不足的空白 数据效用 和 隐私保护.

感兴趣吗?

与我们一起探索合成数据的附加价值