AI 生成的合成数据,轻松快速地访问高质量数据?

人工智能在实践中生成合成数据

人工智能生成的合成数据专家 Syntho 旨在将 privacy by design 借助 AI 生成的合成数据获得竞争优势。 它们帮助组织建立强大的数据基础,轻松快速地访问高质量数据,最近还获得了飞利浦创新奖。

但是,使用 AI 生成合成数据是一种相对较新的解决方案,通常会引入常见问题。 为了回答这些问题,Syntho 与高级分析和人工智能软件的市场领导者 SAS 开始了案例研究。

他们与荷兰 AI 联盟 (NL AIC) 合作,通过对数据质量、法律有效性和可用性的各种评估,将 Syntho Engine 生成的 AI 生成的合成数据与原始数据进行比较,从而研究合成数据的价值。

数据匿名化不是解决方案吗?

经典的匿名化技术的共同点是它们操纵原始数据以阻碍追溯个人。 示例是泛化、抑制、擦除、假名化、数据屏蔽以及行和列的洗牌。 您可以在下表中找到示例。

数据匿名化

这些技术带来了 3 个关键挑战:

  1. 它们根据数据类型和数据集的工作方式不同,因此难以扩展。 此外,由于它们的工作方式不同,总会有关于应用哪些方法以及需要哪些技术组合的争论。
  2. 与原始数据始终存在一对一的关系。 这意味着总会存在隐私风险,尤其是由于所有开放的数据集和链接这些数据集的可用技术。
  3. 他们操纵数据,从而在此过程中破坏数据。 这对于“预测能力”至关重要的 AI 任务尤其具有破坏性,因为质量差的数据会导致 AI 模型的洞察力差(垃圾输入会导致垃圾输出)。

通过本案例研究也评估了这些要点。

案例研究简介

对于案例研究,目标数据集是 SAS 提供的电信数据集,其中包含 56.600 个客户的数据。 该数据集包含 128 列,其中一列指示客户是否已离开公司(即“流失”)。 案例研究的目的是使用合成数据来训练一些模型来预测客户流失并评估这些训练模型的性能。 由于客户流失预测是一项分类任务,SAS 选择了四种流行的分类模型进行预测,包括:

  1. 随机森林
  2. 梯度提升
  3. 逻辑回归
  4. 神经网络

在生成合成数据之前,SAS 将电信数据集随机拆分为训练集(用于训练模型)和保持集(用于对模型进行评分)。 为评分设置单独的保留集允许对分类模型在应用于新数据时的执行情况进行公正的评估。

使用训练集作为输入,Syntho 使用其 Syntho Engine 生成合成数据集。 对于基准测试,SAS 在应用各种匿名技术以达到某个阈值(k-匿名性)后,还创建了训练集的操纵版本。 前面的步骤产生了四个数据集:

  1. 训练数据集(即原始数据集减去保留数据集)
  2. 保留数据集(即原始数据集的子集)
  3. 匿名数据集(基于训练数据集)
  4. 合成数据集(基于训练数据集)

数据集 1、3 和 4 用于训练每个分类模型,得到 12 (3 x 4) 个训练模型。 SAS 随后使用保持数据集来衡量每个模型预测客户流失的准确性。 结果如下所示,从一些基本统计数据开始。

SAS 中生成的机器学习管道

图:SAS 视觉数据挖掘和机器学习中生成的机器学习管道

将匿名数据与原始数据进行比较时的基本统计数据

匿名化技术甚至会破坏基本模式、业务逻辑、关系和统计数据(如下例所示)。 因此,使用匿名数据进行基本分析会产生不可靠的结果。 事实上,匿名数据质量差,几乎不可能将其用于高级分析任务(例如 AI/ML 建模和仪表板)。

将匿名数据与原始数据进行比较

将合成数据与原始数据进行比较时的基本统计数据

使用 AI 生成的合成数据保留了基本模式、业务逻辑、关系和统计数据(如下例所示)。 因此,使用合成数据进行基本分析会产生可靠的结果。 关键问题,合成数据是否适用于高级分析任务(例如 AI/ML 建模和仪表板)?

将合成数据与原始数据进行比较

人工智能生成的合成数据和高级分析

合成数据不仅适用于基本模式(如前图所示),它还捕获高级分析任务所需的深层“隐藏”统计模式。 后者在下面的条形图中进行了演示,表明在合成数据上训练的模型与在原始数据上训练的模型的准确性相似。 此外,在曲线下面积 (AUC*) 接近 0.5 的情况下,在匿名数据上训练的模型表现最差。 可根据要求提供完整报告,其中包含与原始数据相比对合成数据进行的所有高级分析评估。

*AUC:曲线下面积是衡量高级分析模型准确性的指标,考虑了真阳性、假阳性、假阴性和真阴性。 0,5 表示模型随机预测且没有预测能力,1 表示模型始终正确且具有完全预测能力。

此外,这种合成数据可用于了解模型实际训练所需的数据特征和主要变量。 与原始数据相比,合成数据算法选择的输入非常相似。 因此,可以在此合成版本上完成建模过程,从而降低数据泄露的风险。 但是,当推断单个记录(例如电信客户)时,建议对原始数据进行再培训,以提高可解释性、提高接受度或仅仅因为监管。                              

AUC by Algorithm 按方法分组

AUC

结论:

  • 与在原始数据上训练的模型相比,在合成数据上训练的模型表现出高度相似的性能
  • 与在原始数据或合成数据上训练的模型相比,使用“经典匿名技术”在匿名数据上训练的模型表现出较差的性能
  • 合成数据生成既简单又快速,因为该技术对每个数据集和每个数据类型的工作方式完全相同。

增值合成数据用例

用例 1:用于模型开发和高级分析的合成数据

拥有强大的数据基础以及轻松快速地访问可用的高质量数据对于开发模型(例如仪表板 [BI] 和高级分析 [AI & ML])至关重要。 然而,许多组织都受到数据基础欠佳的困扰,从而导致了 3 个关键挑战:

  • 由于(隐私)法规、内部流程或数据孤岛,访问数据需要很长时间
  • 经典的匿名化技术会破坏数据,使数据不再适合分析和高级分析(垃圾输入 = 垃圾输出)
  • 现有解决方案不可扩展,因为它们对每个数据集和每个数据类型的工作方式不同,并且无法处理大型多表数据库

合成数据方法:开发具有与真实合成数据一样好的模型,以:

  • 尽量减少对原始数据的使用,而不会妨碍您的开发人员
  • 解锁个人数据并可以访问更多以前受到限制(例如由于隐私)的数据
  • 轻松快速地访问相关数据
  • 适用于每个数据集、数据类型和海量数据库的可扩展解决方案

这使组织可以建立强大的数据基础,轻松快速地访问可用的高质量数据,以解锁数据并利用数据机会。

 

用例 2:用于软件测试、开发和交付的智能综合测试数据

使用高质量的测试数据进行测试和开发对于提供最先进的软件解决方案至关重要。 使用原始生产数据似乎很明显,但由于(隐私)法规是不允许的。 选择 Test Data Management (TDM) 工具介绍“legacy-by-design” 在正确获取测试数据方面:

  • 不反映生产数据和业务逻辑,不保留参考完整性
  • 工作缓慢且耗时
  • 需要手动操作

合成数据方法:使用 AI 生成的合成测试数据进行测试和开发,以提供最先进的软件解决方案,智能:

  • 具有保留业务逻辑和参照完整性的生产类数据
  • 使用最先进的 AI 轻松快速地生成数据
  • 隐私设计
  • 简单、快速和 agile

这允许组织使用下一级测试数据进行测试和开发,以提供最先进的软件解决方案!

更多信息

感兴趣的? 有关合成数据的更多信息,请访问 Syntho 网站或联系 Wim Kees Janssen。 有关 SAS 的更多信息,请访问 www.sas.com 或联系 kees@syntho.ai。

在此用例中,Syntho、SAS 和 NL AIC 协同工作以实现预期结果。 Syntho 是 AI 生成的合成数据方面的专家,而 SAS 是分析领域的市场领导者,并提供用于探索、分析和可视化数据的软件。

* 预测 2021 年——管理、扩展和转变数字业务的数据和分析策略,Gartner,2020 年。

合成器指南盖

立即保存您的合成数据指南!