Syntho 生成的综合数据由 SAS 数据专家从外部和客观的角度进行评估、验证和批准。
尽管 Syntho 很自豪能够为其用户提供先进的质量保证报告,但我们也了解对行业领导者的合成数据进行外部客观评估的重要性。这就是为什么我们与分析领域的领导者 SAS 合作来评估我们的合成数据。
SAS 对 Syntho 的 AI 生成的合成数据与原始数据的数据准确性、隐私保护和可用性进行了各种彻底的评估。结论是,SAS 评估并批准 Syntho 的合成数据与原始数据相比准确、安全且可用。
我们使用用于“流失”预测的电信数据作为目标数据。评估的目标是使用合成数据来训练各种流失预测模型并评估每个模型的性能。由于流失预测是一项分类任务,SAS 选择了流行的分类模型来进行预测,包括:
在生成合成数据之前,SAS 将电信数据集随机拆分为训练集(用于训练模型)和保持集(用于对模型进行评分)。 为评分设置单独的保留集可以对分类模型在应用于新数据时的表现进行公正的评估。
Syntho 使用训练集作为输入,使用其 Syntho 引擎生成合成数据集。为了进行基准测试,SAS 在应用各种匿名化技术达到某个阈值(k-匿名性)后还创建了训练集的匿名版本。前面的步骤产生了四个数据集:
数据集 1、3 和 4 用于训练每个分类模型,产生 12 (3 x 4) 个训练模型。 SAS 随后使用保留数据集来衡量每个模型在预测客户流失方面的准确性。
SAS 对 Syntho 的 AI 生成的合成数据与原始数据的数据准确性、隐私保护和可用性进行了各种彻底的评估。结论是,SAS 评估并批准 Syntho 的合成数据与原始数据相比准确、安全且可用。
Syntho 的合成数据不仅包含基本模式,还捕获高级分析任务所需的深层“隐藏”统计模式。后者在条形图中得到了演示,表明在合成数据上训练的模型与在原始数据上训练的模型的准确性相似。因此,合成数据可用于模型的实际训练。与原始数据相比,算法在合成数据上选择的输入和变量重要性非常相似。因此,得出的结论是,建模过程可以在合成数据上完成,作为使用真实敏感数据的替代方案。
经典的匿名技术的共同点是它们操纵原始数据以阻止追踪个人。他们操纵数据,从而在此过程中破坏数据。匿名化程度越高,您的数据受到的保护就越好,但您的数据被破坏的也就越多。这对于“预测能力”至关重要的人工智能和建模任务来说尤其具有破坏性,因为质量差的数据会导致人工智能模型得出糟糕的见解。 SAS 证明了这一点,曲线下面积 (AUC*) 接近 0.5,表明在匿名数据上训练的模型迄今为止表现最差。
变量之间的相关性和关系被准确地保存在合成数据中。
曲线下面积 (AUC)(衡量模型性能的指标)保持一致。
此外,在将合成数据与原始数据集进行比较时,表明模型中变量的预测能力的变量重要性保持不变。
根据 SAS 的这些观察结果并使用 SAS Viya,我们可以自信地得出结论,Syntho 引擎生成的合成数据在质量方面确实与真实数据相当。这验证了合成数据在模型开发中的使用,为利用合成数据进行高级分析铺平了道路。