什麼是合成數據?
答案比較簡單。 原始數據是在您與真實的人(例如客戶、患者、員工等)的所有互動中以及通過您的所有內部流程收集的,而合成數據是由計算機算法生成的。 該計算機算法生成全新的人工數據點。
解決數據隱私挑戰
合成生成的數據由全新的人工數據點組成,與原始數據沒有一對一的關係。 因此,沒有一個合成數據點可以追溯到或反向工程到原始數據。 因此,合成數據不受 GDPR 等隱私法規的約束,可作為解決和克服數據隱私挑戰的解決方案。
增強和模擬
合成數據生成的生成方面允許增強和模擬全新的數據。 當您沒有足夠的數據(數據稀缺),想要對邊緣情況進行上採樣或您還沒有數據時,這可以作為解決方案。
在這裡,Syntho 的重點是結構化數據(在包含行和列的表格中格式化的數據,就像您在 Excel 工作表中看到的那樣),但我們總是喜歡通過圖像來說明合成數據的概念,因為它更具吸引力。
合成數據保護傘中確實存在三種類型的合成數據。 這 3 種類型的合成數據是:虛擬數據、基於規則生成的合成數據和人工智能 (AI) 生成的合成數據。 我們將簡要解釋 3 種不同類型的合成數據是什麼。
虛擬數據是隨機生成的數據(例如通過模擬數據生成器)。
因此,原始數據中的特徵、關係和統計模式不會在生成的虛擬數據中保留、捕獲和再現。 因此,與原始數據相比,虛擬數據/模擬數據的代表性最小。
基於規則生成的合成數據是由一組預定義的規則生成的合成數據。 這些預定義規則的示例可能是您希望獲得具有某個最小值、最大值或平均值的合成數據。 您希望在基於規則生成的合成數據中重現的任何特徵、關係和統計模式都需要預先定義。
因此,數據質量將與預定義的規則集一樣好。 當高數據質量至關重要時,這會帶來挑戰。 首先,人們只能定義一組有限的規則以在合成數據中捕獲。 此外,設置多個規則通常會導致規則重疊和衝突。 此外,您永遠不會完全涵蓋所有相關規則。 此外,可能還有您甚至不知道的相關規則。 最後(不要忘記),這將花費您大量的時間和精力,從而導致解決方案效率低下。
顧名思義,人工智能 (AI) 生成的合成數據是人工智能 (AI) 算法生成的合成數據。 AI 模型在原始數據上進行訓練,以學習所有特徵、關係和統計模式。 此後,該人工智能算法能夠生成全新的數據點,並對這些新數據點進行建模,從而重現原始數據集中的特徵、關係和統計模式。 這就是我們所說的合成數據孿生。
人工智能模型模仿原始數據生成合成數據孿生,可以像原始數據一樣使用。 這解鎖了各種用例,其中 AI 生成的合成數據可用作使用原始(敏感)數據的替代方案,例如將 AI 生成的合成數據用作測試數據、演示數據或用於分析。
與基於規則生成的合成數據相比:AI 算法無需您研究和定義相關規則,而是自動為您執行此操作。 在這裡,不僅包括您知道的特徵、關係和統計模式,還包括您甚至不知道的特徵、關係和統計模式。
根據您的用例,建議使用虛擬數據/模擬數據、基於規則生成的合成數據或人工智能 (AI) 生成的合成數據的組合。 本概述為您提供了要使用哪種類型的合成數據的初步指示。 由於 Syntho 支持所有這些,請隨時聯繫我們的專家與我們一起深入了解您的用例。