常見問題
有關合成數據的常見問題
可以理解! 幸運的是,我們有答案,我們隨時為您提供幫助。 查看我們的常見問題解答。
請在下面打開一個問題,然後單擊鏈接以查找更多信息。 有一個在這裡沒有說明的更複雜的問題? 直接諮詢我們的專家!
最常被問到的問題
合成數據是指人工生成的數據,而不是從現實世界來源收集的數據。 一般來說,原始數據是在你與人(客戶、患者等)的所有互動中收集的,並通過你所有的內部流程收集的,而合成數據是由計算機算法生成的。
合成數據還可用於在受控環境中測試和評估模型,或通過生成類似於真實世界數據但不包含任何敏感信息的數據來保護敏感信息。 合成數據通常用作隱私敏感數據的替代品,並可用作測試數據、用於分析或訓練機器學習。
保證合成數據具有與原始數據相同的數據質量可能具有挑戰性,並且通常取決於特定用例和用於生成合成數據的方法。 一些生成合成數據的方法,例如生成模型,可以生成與原始數據高度相似的數據。 關鍵問題:如何證明這一點?
有一些方法可以確保合成數據的質量:
- 通過我們的數據質量報告的數據質量指標:確保合成數據與原始數據具有相同數據質量的一種方法是使用數據質量指標將合成數據與原始數據進行比較。 這些指標可用於衡量數據的相似性、準確性和完整性等。 Syntho 軟件包括一個數據質量報告,其中包含各種數據質量指標.
- 外部評估:由於合成數據與原始數據相比的數據質量是關鍵,我們最近與 SAS(分析市場領導者)的數據專家進行了評估,以證明 Syntho 合成數據與真實數據相比的數據質量。 SAS 的分析專家 Edwin van Unen 通過各種分析 (AI) 評估評估了 Syntho 生成的合成數據集並分享了結果。 在此處觀看該視頻的簡短回顧.
- 自己測試和評估:可以通過將合成數據與真實世界數據進行比較,或使用它來訓練機器學習模型並將其性能與基於真實世界數據訓練的模型進行比較來測試和評估合成數據。 為什麼不自己測試合成數據的數據質量呢? 在這裡向我們的專家詢問這種可能性.
請務必注意,合成數據永遠不能保證與原始數據 100% 相似,但它可以足夠接近以對特定用例有用。 這個特定用例甚至可以是高級分析或訓練機器學習模型。
經典的“匿名化”並不總是最好的解決方案,因為:
- 隱私風險 – 你將永遠擁有
隱私風險。 應用那些
經典的匿名技術
只會讓它更難,但不會
無法識別個人。 - 銷毀數據 – 你越多
匿名化,你保護得越好
你的隱私,但你越多
破壞你的數據。 這不是什麼
你想要分析,因為
破壞的數據會導致壞
見解。 - 耗時的 – 這是一個解決方案
這需要很多時間,因為
這些技術的工作方式不同
每個數據集和每個數據類型。
合成數據旨在解決所有這些缺點。 差異是如此驚人,以至於我們製作了一段視頻。 在這裡觀看.
常見問題解答
綜合數據
合成數據孿生是真實世界數據集和/或數據庫的算法生成副本。 通過合成數據孿生,Syntho 旨在模擬原始數據集或數據庫,盡可能接近原始數據,以創建原始數據的真實表示。 使用合成數據孿生,我們的目標是與原始數據相比具有更高的合成數據質量。 我們通過使用最先進的人工智能模型的合成數據軟件來做到這一點。 這些 AI 模型生成全新的數據點,並以這樣一種方式對它們進行建模,即我們將原始數據的特徵、關係和統計模式保留到這樣的程度,以至於您可以像使用原始數據一樣使用它。
這可用於多種目的,例如測試和訓練機器學習模型、模擬研究和開發場景以及創建用於培訓和教育的虛擬環境。 合成數據孿生可用於創建真實且具有代表性的數據,當現實世界的數據不可用或由於嚴格的數據隱私法規而使用現實世界的數據不切實際或不道德時,這些數據可以用來代替現實世界的數據。
是的,我們有。 我們提供各種增值合成數據優化和擴充功能,包括 mockers,將您的數據提升到一個新的水平。
模擬數據和人工智能生成的合成數據都屬於合成數據,只是生成方式不同,用途不同。
模擬數據是一種人工創建的合成數據,通常用於測試和開發目的。 它通常用於在受控環境中模擬真實世界數據的行為,並且通常用於測試系統或應用程序的功能。 它通常很簡單,易於生成,並且不需要復雜的模型或算法。 通常,一個引用者還將模擬數據稱為“虛擬數據”或“虛假數據”。
另一方面,人工智能生成的合成數據是使用人工智能技術生成的,例如機器學習或生成模型。 它用於創建真實且具有代表性的數據,當由於嚴格的隱私法規而使用真實世界的數據不切實際或不道德時,這些數據可以用來代替真實世界的數據。 它通常比手動模擬數據更複雜,需要更多的計算資源。 因此,它更加逼真,並儘可能接近地模仿原始數據。
綜上所述,模擬數據是人工創建的,通常用於測試和開發,而人工智能生成的合成數據是使用人工智能技術創建的,用於創建具有代表性和真實性的數據。
數據質量
保證合成數據具有與原始數據相同的數據質量可能具有挑戰性,並且通常取決於特定用例和用於生成合成數據的方法。 一些生成合成數據的方法,例如生成模型,可以生成與原始數據高度相似的數據。 關鍵問題:如何證明這一點?
有一些方法可以確保合成數據的質量:
- 通過我們的數據質量報告的數據質量指標:確保合成數據與原始數據具有相同數據質量的一種方法是使用數據質量指標將合成數據與原始數據進行比較。 這些指標可用於衡量數據的相似性、準確性和完整性等。 Syntho 軟件包括一個數據質量報告,其中包含各種數據質量指標.
- 外部評估:由於合成數據與原始數據相比的數據質量是關鍵,我們最近與 SAS(分析市場領導者)的數據專家進行了評估,以證明 Syntho 合成數據與真實數據相比的數據質量。 SAS 的分析專家 Edwin van Unen 通過各種分析 (AI) 評估評估了 Syntho 生成的合成數據集並分享了結果。 在此處觀看該視頻的簡短回顧.
- 自己測試和評估:可以通過將合成數據與真實世界數據進行比較,或使用它來訓練機器學習模型並將其性能與基於真實世界數據訓練的模型進行比較來測試和評估合成數據。 為什麼不自己測試合成數據的數據質量呢? 在這裡向我們的專家詢問這種可能性.
請務必注意,合成數據永遠不能保證與原始數據 100% 相似,但它可以足夠接近以對特定用例有用。 這個特定用例甚至可以是高級分析或訓練機器學習模型。
隱私
不,我們沒有。 我們可以通過 docker 在本地或您的私有云中輕鬆部署 Syntho Engine。
不會。我們優化了我們的平台,使其可以輕鬆部署在客戶信任的環境中。 這確保了數據永遠不會離開客戶的可信環境。 客戶可信環境的部署選項是“本地”和“客戶雲環境(私有云)”。
可選:Syntho 支持託管在“Syntho 雲”中的版本。
不是。Syntho Engine 是一個自助服務平台。 因此,使用 Syntho Engine 生成合成數據的方式是可能的 end-to-end 過程中,Syntho 永遠無法看到也永遠不需要處理數據。
Syntho 的 QA 報告包含三個 工業標準 評估數據隱私的指標。 每個指標背後的想法如下:
- 合成數據(S) 應“盡可能接近”,但“不要太接近”目標數據 (T).
- 隨機選擇的保持數據(H) 確定“太接近”的基準。
- A 完美的解決方案 生成新的合成數據,其行為與原始數據完全相同,但以前從未見過(= H).
荷蘭數據保護局特別強調的一個用例是使用合成數據作為測試數據。
合成引擎
Syntho 使您能夠輕鬆連接數據庫、應用程序、數據管道或文件系統。
我們支持各種集成連接器,以便您可以連接源環境(存儲原始數據的位置)和目標環境(您要將合成數據寫入的位置) end-to-end 綜合方法。
我們支持的連接功能:
- 與 Docker 即插即用
- 20 多個數據庫連接器
- 20 多個文件系統連接器
阅读更多.
當然,生成時間取決於數據庫的大小。 平均而言,少於 1 萬條記錄的表在不到 5 分鐘的時間內被合成。
Syntho 的機器學習算法可以更好地概括具有更多可用實體記錄的特徵,從而降低隱私風險。 建議最小列與行的比例為 1:500。 例如,如果您的源表有 6 列,它應該至少包含 3000 行。
Syntho 引擎最適合處理結構化的表格數據(任何包含行和列的數據)。 在這些結構中,我們支持以下數據類型:
- 結構化表格中的數據(分類、數字等)
- 直接標識符和 PII
- 大型數據集和數據庫
- 地理位置數據(如 GPS)
- 時間序列數據
- 多表數據庫(具有參照完整性)
- 打開文本數據
複雜數據支持
除了所有常規類型的表格數據之外,Syntho Engine 還支持複雜的數據類型和復雜的數據結構。
- 時間序列
- 多表數據庫
- 開啟文字
阅读更多.
不,我們優化了我們的平台以最大限度地減少計算要求(例如不需要 GPU),而不會影響數據準確性。 此外,我們支持自動縮放,這樣就可以合成一個龐大的數據庫。
是的。 Syntho 軟件針對包含多個表的數據庫進行了優化。
至於這一點,Syntho 會自動檢測數據類型、模式和格式,以最大限度地提高數據準確性。 對於多表數據庫,我們支持自動表關係推斷和合成以保持引用完整性。