人工智能生成的合成数据专家 Syntho 旨在将 privacy by design 借助 AI 生成的合成数据获得竞争优势。 它们帮助组织建立强大的数据基础,轻松快速地访问高质量数据,最近还获得了飞利浦创新奖。
但是,使用 AI 生成合成数据是一种相对较新的解决方案,通常会引入常见问题。 为了回答这些问题,Syntho 与高级分析和人工智能软件的市场领导者 SAS 开始了案例研究。
他们与荷兰 AI 联盟 (NL AIC) 合作,通过对数据质量、法律有效性和可用性的各种评估,将 Syntho Engine 生成的 AI 生成的合成数据与原始数据进行比较,从而研究合成数据的价值。
经典的匿名化技术的共同点是它们操纵原始数据以阻碍追溯个人。 示例是泛化、抑制、擦除、假名化、数据屏蔽以及行和列的洗牌。 您可以在下表中找到示例。
这些技术带来了 3 个关键挑战:
通过本案例研究也评估了这些要点。
对于案例研究,目标数据集是 SAS 提供的电信数据集,其中包含 56.600 个客户的数据。 该数据集包含 128 列,其中一列指示客户是否已离开公司(即“流失”)。 案例研究的目的是使用合成数据来训练一些模型来预测客户流失并评估这些训练模型的性能。 由于客户流失预测是一项分类任务,SAS 选择了四种流行的分类模型进行预测,包括:
在生成合成数据之前,SAS 将电信数据集随机拆分为训练集(用于训练模型)和保持集(用于对模型进行评分)。 为评分设置单独的保留集允许对分类模型在应用于新数据时的执行情况进行公正的评估。
使用训练集作为输入,Syntho 使用其 Syntho Engine 生成合成数据集。 对于基准测试,SAS 在应用各种匿名技术以达到某个阈值(k-匿名性)后,还创建了训练集的操纵版本。 前面的步骤产生了四个数据集:
数据集 1、3 和 4 用于训练每个分类模型,得到 12 (3 x 4) 个训练模型。 SAS 随后使用保持数据集来衡量每个模型预测客户流失的准确性。 结果如下所示,从一些基本统计数据开始。
图:SAS 视觉数据挖掘和机器学习中生成的机器学习管道
匿名化技术甚至会破坏基本模式、业务逻辑、关系和统计数据(如下例所示)。 因此,使用匿名数据进行基本分析会产生不可靠的结果。 事实上,匿名数据质量差,几乎不可能将其用于高级分析任务(例如 AI/ML 建模和仪表板)。
使用 AI 生成的合成数据保留了基本模式、业务逻辑、关系和统计数据(如下例所示)。 因此,使用合成数据进行基本分析会产生可靠的结果。 关键问题,合成数据是否适用于高级分析任务(例如 AI/ML 建模和仪表板)?
合成数据不仅适用于基本模式(如前图所示),它还捕获高级分析任务所需的深层“隐藏”统计模式。 后者在下面的条形图中进行了演示,表明在合成数据上训练的模型与在原始数据上训练的模型的准确性相似。 此外,在曲线下面积 (AUC*) 接近 0.5 的情况下,在匿名数据上训练的模型表现最差。 可根据要求提供完整报告,其中包含与原始数据相比对合成数据进行的所有高级分析评估。
*AUC:曲线下面积是衡量高级分析模型准确性的指标,考虑了真阳性、假阳性、假阴性和真阴性。 0,5 表示模型随机预测且没有预测能力,1 表示模型始终正确且具有完全预测能力。
此外,这种合成数据可用于了解模型实际训练所需的数据特征和主要变量。 与原始数据相比,合成数据算法选择的输入非常相似。 因此,可以在此合成版本上完成建模过程,从而降低数据泄露的风险。 但是,当推断单个记录(例如电信客户)时,建议对原始数据进行再培训,以提高可解释性、提高接受度或仅仅因为监管。
AUC by Algorithm 按方法分组
结论:
用例 1:用于模型开发和高级分析的合成数据
拥有强大的数据基础以及轻松快速地访问可用的高质量数据对于开发模型(例如仪表板 [BI] 和高级分析 [AI & ML])至关重要。 然而,许多组织都受到数据基础欠佳的困扰,从而导致了 3 个关键挑战:
合成数据方法:开发具有与真实合成数据一样好的模型,以:
这使组织可以建立强大的数据基础,轻松快速地访问可用的高质量数据,以解锁数据并利用数据机会。
用例 2:用于软件测试、开发和交付的智能综合测试数据
使用高质量的测试数据进行测试和开发对于提供最先进的软件解决方案至关重要。 使用原始生产数据似乎很明显,但由于(隐私)法规是不允许的。 选择 Test Data Management (TDM) 工具介绍“legacy-by-design” 在正确获取测试数据方面:
合成数据方法:使用 AI 生成的合成测试数据进行测试和开发,以提供最先进的软件解决方案,智能:
这允许组织使用下一级测试数据进行测试和开发,以提供最先进的软件解决方案!
感兴趣的? 有关合成数据的更多信息,请访问 Syntho 网站或联系 Wim Kees Janssen。 有关 SAS 的更多信息,请访问 www.sas.com 或联系 kees@syntho.ai。
在此用例中,Syntho、SAS 和 NL AIC 协同工作以实现预期结果。 Syntho 是 AI 生成的合成数据方面的专家,而 SAS 是分析领域的市场领导者,并提供用于探索、分析和可视化数据的软件。
* 预测 2021 年——管理、扩展和转变数字业务的数据和分析策略,Gartner,2020 年。