從隱私到可能性:作為 SAS 黑客馬拉鬆的一部分,通過 SAS Viya 中的集成 Syntho 引擎使用合成數據來解鎖隱私敏感數據

在 SAS 黑客馬拉松期間,我們通過生成 AI 釋放了醫療保健數據的全部潛力。

為什麼要解鎖隱私敏感的醫療保健數據?

醫療保健迫切需要數據驅動洞察力。 因為醫療保健人員不足,拯救生命的潛力壓力過大。 但是,醫療保健數據是對隱私最敏感的數據,因此會被鎖定。 此隱私敏感數據:

  • 訪問耗時
  • 需要大量的文書工作
  • 並且不能簡單地使用

這是有問題的,因為我們這次黑客馬拉鬆的目標是預測惡化和死亡率,作為一家領先醫院癌症研究的一部分。 這就是 Syntho 和 SAS 為這家醫院合作的原因,Syntho 通過合成數據解鎖數據,而 SAS 通過領先的分析平台 SAS Viya 實現數據洞察。

合成數據?

我們的 Syntho 引擎生成全新的人工生成數據。 關鍵區別在於,我們應用人工智能在合成數據中模擬真實世界數據的特徵,甚至可以用於分析。 這就是為什麼我們稱其為合成數據孿生。 它與原始數據一樣真實且在統計上完全相同,但沒有隱私風險。

Syntho 引擎集成在 SAS Viya 中

在這次黑客馬拉松中,我們將 Syntho Engine API 作為步驟集成到 SAS Viya 中。 在這裡,我們還驗證了合成數據確實與 SAS Viya 中的真實數據一樣好。 在開始癌症研究之前,我們使用開放數據集測試了這種集成方法,並通過 SAS Viya 中的各種驗證方法驗證了合成數據是否確實與真實數據一樣好。

合成數據和真實數據一樣好嗎?

相關性,變量之間的關係,被保留下來。

曲線下面積是模型性能的衡量標準,將保留。

當我們將原始數據與合成數據進行比較時,甚至變量的重要性,變量對模型的預測能力也成立。

因此,我們可以得出結論,由 SAS Viya 中的 Syntho Engine 生成的合成數據確實和真實的一樣好,我們可以使用合成數據進行模型開發。 因此,我們可以從這項癌症研究著手來預測惡化和死亡率。

一家領先醫院的癌症研究綜合數據

在這裡,我們使用集成的 Syntho Engine 作為 SAS Viya 中的一個步驟,用合成數據解鎖這種隱私敏感數據。

結果,AUC 為 0.74,模型能夠預測惡化和死亡率。

由於使用合成數據,我們能夠在風險更低、數據更多和數據訪問更快的情況下解鎖這種醫療保健。

結合多家醫院的數據

這不僅可以在醫院內實現,還可以合併來自多家醫院的數據。 因此,下一步是綜合多家醫院的數據。 通過 Syntho Engine 合成不同的相關醫院數據作為 SAS Viya 模型的輸入。 在這裡,我們實現了 0.78 的 AUC,表明更多的數據可以提高這些模型的預測能力。

成績

這些是這次黑客馬拉鬆的結果:

  • Syntho 作為步驟集成在 SAS Viya 中
  • 在 SAS Viya 中通過 Syntho 成功生成合成數據
  • 合成數據的準確性得到認可,因為在合成數據上訓練的模型與在原始數據上訓練的模型得分相似
  • 作為癌症研究的一部分,我們預測了合成數據的惡化和死亡率
  • 並在結合來自多家醫院的綜合數據時證明 AUC 增加。

接下來的步驟

接下來的步驟是

  • 包括更多醫院
  • 擴展用例和
  • 擴展到任何其他組織,因為這些技術與部門無關。

這就是 Syntho 和 SAS 如何解鎖數據並實現醫療保健中數據驅動的洞察力,以確保醫療保健人員配備齊全,並承受拯救生命的正常壓力。

醫療保健中的綜合數據封面

將您的綜合數據保存在醫療保健報告中!