从隐私到可能性:作为 SAS 黑客马拉松的一部分,通过 SAS Viya 中的集成 Syntho 引擎使用合成数据来解锁隐私敏感数据

在 SAS 黑客马拉松期间,我们通过生成 AI 释放了医疗保健数据的全部潜力。

为什么要解锁隐私敏感的医疗保健数据?

医疗保健迫切需要数据驱动洞察力。 因为医疗保健人员不足,拯救生命的潜力压力过大。 但是,医疗保健数据是对隐私最敏感的数据,因此会被锁定。 此隐私敏感数据:

  • 访问耗时
  • 需要大量的文书工作
  • 并且不能简单地使用

这是有问题的,因为我们这次黑客马拉松的目标是预测恶化和死亡率,作为一家领先医院癌症研究的一部分。 这就是 Syntho 和 SAS 为这家医院合作的原因,Syntho 通过合成数据解锁数据,而 SAS 通过领先的分析平台 SAS Viya 实现数据洞察。

合成数据?

我们的 Syntho 引擎生成全新的人工生成数据。 关键区别在于,我们应用人工智能在合成数据中模拟真实世界数据的特征,甚至可以用于分析。 这就是为什么我们称其为合成数据孪生。 它与原始数据一样真实且在统计上完全相同,但没有隐私风险。

Syntho 引擎集成在 SAS Viya 中

在这次黑客马拉松中,我们将 Syntho Engine API 作为步骤集成到 SAS Viya 中。 在这里,我们还验证了合成数据确实与 SAS Viya 中的真实数据一样好。 在开始癌症研究之前,我们使用开放数据集测试了这种集成方法,并通过 SAS Viya 中的各种验证方法验证了合成数据是否确实与真实数据一样好。

合成数据和真实数据一样好吗?

相关性,变量之间的关系,被保留下来。

曲线下面积是模型性能的衡量标准,将保留。

当我们将原始数据与合成数据进行比较时,甚至变量的重要性,变量对模型的预测能力也成立。

因此,我们可以得出结论,由 SAS Viya 中的 Syntho Engine 生成的合成数据确实和真实的一样好,我们可以使用合成数据进行模型开发。 因此,我们可以从这项癌症研究着手来预测恶化和死亡率。

一家领先医院的癌症研究综合数据

在这里,我们使用集成的 Syntho Engine 作为 SAS Viya 中的一个步骤,用合成数据解锁这种隐私敏感数据。

结果,AUC 为 0.74,模型能够预测恶化和死亡率。

由于使用合成数据,我们能够在风险更低、数据更多和数据访问更快的情况下解锁这种医疗保健。

结合多家医院的数据

这不仅可以在医院内实现,还可以合并来自多家医院的数据。 因此,下一步是综合多家医院的数据。 通过 Syntho Engine 合成不同的相关医院数据作为 SAS Viya 模型的输入。 在这里,我们实现了 0.78 的 AUC,表明更多的数据可以提高这些模型的预测能力。

成果

这些是这次黑客马拉松的结果:

  • Syntho 作为步骤集成在 SAS Viya 中
  • 在 SAS Viya 中通过 Syntho 成功生成合成数据
  • 合成数据的准确性得到认可,因为在合成数据上训练的模型与在原始数据上训练的模型得分相似
  • 作为癌症研究的一部分,我们预测了合成数据的恶化和死亡率
  • 并在结合来自多家医院的综合数据时证明 AUC 增加。

接下来的步骤

接下来的步骤是

  • 包括更多医院
  • 扩展用例和
  • 扩展到任何其他组织,因为这些技术与部门无关。

这就是 Syntho 和 SAS 如何解锁数据并实现医疗保健中数据驱动的洞察力,以确保医疗保健人员配备齐全,并承受拯救生命的正常压力。

医疗保健中的综合数据封面

将您的综合数据保存在医疗保健报告中!