匿名数据与合成数据

如果您在执行数据分析的数据测试之前对数据进行匿名处理,则有几个因素在起作用:

  1. 在几乎所有情况下,由于特定和独特的行(例如医疗记录),匿名数据仍然可以追溯到个人
  2. 您匿名化或概括的越多,您破坏的数据就越多。 这会降低您的数据质量,从而降低您的洞察力
  3. 对于不同的数据格式,匿名化的工作方式不同。 这意味着它不可扩展并且可能非常耗时

合成数据解决了所有这些缺点,甚至更多。 观看下面的视频,观看来自 SAS(分析领域的全球市场领导者)的分析专家解释他对原始数据、匿名数据和 Syntho 生成的合成数据之间质量差异的评估。

该视频来自 Syntho x SAS D[N]A Café,关于 AI 生成的合成数据。 在这里找到完整的视频。

Edwin van Unen 向 Syntho 发送了一个原始数据集,我们合成了该数据集。 但问题也是:“如果我们将合成数据与匿名数据进行比较会发生什么?” 因为你在匿名数据中丢失了很多信息,在合成数据集时也会发生这种情况吗? 我们从电信行业的数据集开始,其中包含 56.000 行和 128 列的公司流失信息。 该数据集既是合成的又是匿名的,因此 Edwin 可以将合成与匿名进行比较。 然后,Edwin 开始使用 SAS Viya 进行建模。 他在原始数据集上建立了几个流失模型,使用经典的回归技术和决策树,以及更复杂的技术,如神经网络、梯度提升、随机森林——这些技术。 构建模型时使用标准 SAS Viya 选项。

然后,是时候看看结果了。 结果对于合成数据而不是匿名化非常有希望。 对于观众中的非机器学习专家,我们查看 ROC 曲线下的区域,该区域说明了模型的准确性。 对比原始数据和匿名数据,我们看到原始数据模型在 ROC 曲线下的面积为 8,这是相当不错的,但是匿名数据在 ROC 曲线下的面积为 6。 这意味着我们使用匿名模型会丢失大量信息,因此您会失去很多预测能力。

但是,问题是合成数据呢? 在这里,我们做了完全相同的事情,但 Syntho 没有对数据进行匿名化,而是合成了数据。 现在,我们看到原始数据和合成数据在 ROC 曲线下都有一个 8 的区域,这非常相似。 由于可变性不完全相同,但非常相似。 这意味着,合成数据的潜力非常大——Edwin 对此感到非常高兴。

一群人微笑着

数据是合成的,但我们的团队是真实的!

联系合成 我们的一位专家将以光速与您取得联系,探索合成数据的价值!