匿名数据与合成数据

如果您在执行数据分析的数据测试之前对数据进行匿名处理，则有几个因素在起作用：

在几乎所有情况下，由于特定和独特的行（例如医疗记录），匿名数据仍然可以追溯到个人
您匿名化或概括的越多，您破坏的数据就越多。这会降低您的数据质量，从而降低您的洞察力
对于不同的数据格式，匿名化的工作方式不同。这意味着它不可扩展并且可能非常耗时

合成数据解决了所有这些缺点，甚至更多。观看下面的视频，观看来自 SAS（分析领域的全球市场领导者）的分析专家解释他对原始数据、匿名数据和 Syntho 生成的合成数据之间质量差异的评估。

该视频来自 Syntho x SAS D[N]A Café，关于 AI 生成的合成数据。在这里找到完整的视频。

Edwin van Unen 向 Syntho 发送了一个原始数据集，我们合成了该数据集。但问题也是：“如果我们将合成数据与匿名数据进行比较会发生什么？” 因为你在匿名数据中丢失了很多信息，在合成数据集时也会发生这种情况吗？我们从电信行业的数据集开始，其中包含 56.000 行和 128 列的公司流失信息。该数据集既是合成的又是匿名的，因此 Edwin 可以将合成与匿名进行比较。然后，Edwin 开始使用 SAS Viya 进行建模。他在原始数据集上建立了几个流失模型，使用经典的回归技术和决策树，以及更复杂的技术，如神经网络、梯度提升、随机森林——这些技术。构建模型时使用标准 SAS Viya 选项。

然后，是时候看看结果了。结果对于合成数据而不是匿名化非常有希望。对于观众中的非机器学习专家，我们查看 ROC 曲线下的区域，该区域说明了模型的准确性。对比原始数据和匿名数据，我们看到原始数据模型在 ROC 曲线下的面积为 8，这是相当不错的，但是匿名数据在 ROC 曲线下的面积为 6。这意味着我们使用匿名模型会丢失大量信息，因此您会失去很多预测能力。

但是，问题是合成数据呢？在这里，我们做了完全相同的事情，但 Syntho 没有对数据进行匿名化，而是合成了数据。现在，我们看到原始数据和合成数据在 ROC 曲线下都有一个 8 的区域，这非常相似。由于可变性不完全相同，但非常相似。这意味着，合成数据的潜力非常大——Edwin 对此感到非常高兴。

数据是合成的，但我们的团队是真实的！

联系合成 我们的一位专家将以光速与您取得联系，探索合成数据的价值！

什么是合成数据？

质量保证报告

SAS 外部评估

时间序列综合数据

个人身份信息扫描仪

综合模拟数据

一致的映射

去识别化与合成

基于规则的综合数据

子集

部署与集成

同轴连接器

扩展功能

支持的数据

用户文档

预约演示

定价

合成数据作为测试数据

用于分析的合成数据

用于数据共享的合成数据

产品演示的综合数据

健康防护

金融

公共组织

用户文档

白皮书和指南

博客

在线研讨会

客户案例

定价

关于我们

加入我们

匿名数据与合成数据

数据是合成的，但我们的团队是真实的！

我们的业务

公司

资源

合成通讯

主页