Syntho 產生的綜合資料由 SAS 資料專家從外部和客觀的角度進行評估、驗證和批准。
儘管 Syntho 很自豪能夠為其用戶提供先進的品質保證報告,但我們也了解對行業領導者的合成數據進行外部客觀評估的重要性。這就是為什麼我們與分析領域的領導者 SAS 合作來評估我們的合成數據。
SAS 對 Syntho 的 AI 產生的合成資料與原始資料的資料準確性、隱私保護和可用性進行了各種徹底的評估。結論是,SAS 評估並批准 Syntho 的合成資料與原始資料相比準確、安全且可用。
我們使用用於「流失」預測的電信數據作為目標數據。評估的目標是使用合成資料來訓練各種流失預測模型並評估每個模型的表現。由於流失預測是一項分類任務,SAS 選擇了流行的分類模型來進行預測,包括:
在生成合成數據之前,SAS 將電信數據集隨機拆分為一個訓練集(用於訓練模型)和一個保留集(用於對模型進行評分)。 為評分設置單獨的保留集可以對分類模型在應用於新數據時的表現進行公正的評估。
Syntho 使用訓練集作為輸入,使用其 Syntho 引擎產生合成資料集。為了進行基準測試,SAS 在應用各種匿名化技術達到某個閾值(k-匿名性)後也創建了訓練集的匿名版本。前面的步驟產生了四個資料集:
資料集 1、3 和 4 用於訓練每個分類模型,產生 12 (3 x 4) 個訓練模型。 SAS 隨後使用保留資料集來衡量每個模型在預測客戶流失方面的準確性。
SAS 對 Syntho 的 AI 產生的合成資料與原始資料的資料準確性、隱私保護和可用性進行了各種徹底的評估。結論是,SAS 評估並批准 Syntho 的合成資料與原始資料相比準確、安全且可用。
Syntho 的合成資料不僅包含基本模式,還捕捉進階分析任務所需的深層「隱藏」統計模式。後者在長條圖中得到了演示,表明在合成資料上訓練的模型與在原始資料上訓練的模型的準確性相似。因此,合成資料可用於模型的實際訓練。與原始資料相比,演算法在合成資料上選擇的輸入和變數重要性非常相似。因此,得出的結論是,建模過程可以在合成資料上完成,作為使用真實敏感資料的替代方案。
經典的匿名技術的共同點是它們操縱原始資料以阻止追蹤個人。他們操縱數據,從而在過程中破壞數據。匿名化程度越高,您的資料受到的保護就越好,但您的資料被破壞的也就越多。這對於「預測能力」至關重要的人工智慧和建模任務來說尤其具有破壞性,因為品質差的數據會導致人工智慧模型得出糟糕的見解。 SAS 證明了這一點,曲線下面積 (AUC*) 接近 0.5,表明在匿名資料上訓練的模型迄今為止表現最差。
變量之間的相關性和關係被準確地保存在合成數據中。
曲線下面積 (AUC)(衡量模型性能的指標)保持一致。
此外,在將合成數據與原始數據集進行比較時,表明模型中變量的預測能力的變量重要性保持不變。
根據 SAS 的這些觀察結果並使用 SAS Viya,我們可以自信地得出結論,Syntho 引擎產生的合成資料在品質方面確實與真實資料相當。這驗證了合成資料在模型開發中的使用,為利用合成資料進行高階分析鋪平了道路。