什麼是合成數據?

速成班綜合數據

 

 

簡介

什麼是合成數據?

答案比較簡單。 原始數據是在您與真實的人(例如客戶、患者、員工等)的所有互動中以及通過您的所有內部流程收集的,而合成數據是由計算機算法生成的。 該計算機算法生成全新的人工數據點。

解決數據隱私挑戰

合成生成的數據由全新的人工數據點組成,與原始數據沒有一對一的關係。 因此,沒有一個合成數據點可以追溯到或反向工程到原始數據。 因此,合成數據不受 GDPR 等隱私法規的約束,可作為解決和克服數據隱私挑戰的解決方案。

增強和模擬

合成數據生成的生成方面允許增強和模擬全新的數據。 當您沒有足夠的數據(數據稀缺),想要對邊緣情況進行上採樣或您還沒有數據時,這可以作為解決方案。

在這裡,Syntho 的重點是結構化數據(在包含行和列的表格中格式化的數據,就像您在 Excel 工作表中看到的那樣),但我們總是喜歡通過圖像來說明合成數據的概念,因為它更具吸引力。

合成數據的類型

合成數據保護傘中確實存在三種類型的合成數據。 這 3 種類型的合成數據是:虛擬數據、基於規則生成的合成數據和人工智能 (AI) 生成的合成數據。 我們將簡要解釋 3 種不同類型的合成數據是什麼。

虛擬數據/模擬數據

虛擬數據是隨機生成的數據(例如通過模擬數據生成器)。

因此,原始數據中的特徵、關係和統計模式不會在生成的虛擬數據中保留、捕獲和再現。 因此,與原始數據相比,虛擬數據/模擬數據的代表性最小。

  • 何時使用它:替換直接標識符 (PII) 或當您還沒有數據並且不想在定義規則上花費時間和精力時。

基於規則生成的合成數據

基於規則生成的合成數據是由一組預定義的規則生成的合成數據。 這些預定義規則的示例可能是您希望獲得具有某個最小值、最大值或平均值的合成數據。 您希望在基於規則生成的合成數據中重現的任何特徵、關係和統計模式都需要預先定義。

因此,數據質量將與預定義的規則集一樣好。 當高數據質量至關重要時,這會帶來挑戰。 首先,人們只能定義一組有限的規則以在合成數據中捕獲。 此外,設置多個規則通常會導致規則重疊和衝突。 此外,您永遠不會完全涵蓋所有相關規則。 此外,可能還有您甚至不知道的相關規則。 最後(不要忘記),這將花費您大量的時間和精力,從而導致解決方案效率低下。

  • 何時使用它:當您沒有數據時(還)

人工智能 (AI) 生成的合成數據

顧名思義,人工智能 (AI) 生成的合成數據是人工智能 (AI) 算法生成的合成數據。 AI 模型在原始數據上進行訓練,以學習所有特徵、關係和統計模式。 此後,該人工智能算法能夠生成全新的數據點,並對這些新數據點進行建模,從而重現原始數據集中的特徵、關係和統計模式。 這就是我們所說的合成數據孿生。

人工智能模型模仿原始數據生成合成數據孿生,可以像原始數據一樣使用。 這解鎖了各種用例,其中 AI 生成的合成數據可用作使用原始(敏感)數據的替代方案,例如將 AI 生成的合成數據用作測試數據、演示數據或用於分析。

可視化如何創建合成數據

與基於規則生成的合成數據相比:AI 算法無需您研究和定義相關規則,而是自動為您執行此操作。 在這裡,不僅包括您知道的特徵、關係和統計模式,還包括您甚至不知道的特徵、關係和統計模式。

  • 何時使用它:當您有(一些)數據作為輸入來模擬或用作智能數據生成和增強功能的起點時

使用什麼類型的合成數據?

根據您的用例,建議使用虛擬數據/模擬數據、基於規則生成的合成數據或人工智能 (AI) 生成的合成數據的組合。 本概述為您提供了要使用哪種類型的合成數據的初步指示。 由於 Syntho 支持所有這些,請隨時聯繫我們的專家與我們一起深入了解您的用例。

該圖表顯示了不同類型的綜合數據

合成器指南蓋

立即保存您的合成數據指南!