Syntho 的品質保證報告評估產生的合成數據,並展示合成數據與原始數據相比的準確性、隱私性和速度。
在 Syntho,我們了解可靠且準確的合成資料的重要性。這就是為什麼我們為每次合成資料運行提供全面的品質保證報告。我們的品質報告包括各種指標,例如分佈、相關性、多元分佈、隱私指標等。透過這種方式,您可以輕鬆評估我們提供的合成數據是否具有最高品質,並且可以與您的原始數據具有相同程度的準確性和可靠性。
概覽:本節介紹了我們的綜合數據品質報告中的亮點。我們的評估將合成數據與各個維度的真實數據進行比較。
合成資料生成很複雜,確實存在陷阱,必須加以控制。對於人工智慧演算法來說,過度擬合是一種風險,人工智慧合成資料產生也是如此。因此,在產生合成資料時應該控製過度擬合的風險。 Syntho 引擎控制了過度擬合的風險。最重要的是,Syntho 品質保證 (QA) 報告允許組織證明合成資料沒有過度擬合原始資料。我們也評估更多與隱私相關的方面,這些方面經常被內部稽核師使用。
使用相同匹配率 (IMR) 測試“精確匹配”
證明合成資料記錄與原始資料中的真實記錄相符的比率不會顯著大於分析列車資料時預期的比率。
測試 “類似的比賽” 與最近記錄的距離 (DCR)
證明合成資料記錄與原始資料中最接近的實際記錄的歸一化距離並不比分析列車資料時預期的距離顯著更近。
測試 “異常值”與 最近鄰距離比 (NNDR)
證明最近和次近的合成記錄與原始資料中最接近的記錄之間的距離比率並不明顯小於訓練資料的預期比率。
這只是總結我們的合成數據品質探索和品質保證報告本質的一個快照。它提供了對分佈、相關性和多元分佈的細緻理解,這些分佈是由 Syntho 引擎的高級功能捕獲的合成數據的一部分。有關我們的品質保證報告的更多詳細資訊可根據要求提供。