常見問題

有關合成數據的常見問題

可以理解! 幸運的是,我們有答案,我們隨時為您提供幫助。 查看我們的常見問題解答。

請在下面打開一個問題,然後單擊鏈接以查找更多信息。 有一個在這裡沒有說明的更複雜的問題? 直接諮詢我們的專家!

最常被問到的問題

合成數據是指人工生成的數據,而不是從現實世界來源收集的數據。 一般來說,原始數據是在你與人(客戶、患者等)的所有互動中收集的,並通過你所有的內部流程收集的,而合成數據是由計算機算法生成的。

合成數據還可用於在受控環境中測試和評估模型,或通過生成類似於真實世界數據但不包含任何敏感信息的數據來保護敏感信息。 合成數據通常用作隱私敏感數據的替代品,並可用作測試數據、用於分析或訓練機器學習。

阅读更多

保證合成數據具有與原始數據相同的數據質量可能具有挑戰性,並且通常取決於特定用例和用於生成合成數據的方法。 一些生成合成數據的方法,例如生成模型,可以生成與原始數據高度相似的數據。 關鍵問題:如何證明這一點?

有一些方法可以確保合成數據的質量:

  • 通過我們的數據質量報告的數據質量指標:確保合成數據與原始數據具有相同數據質量的一種方法是使用數據質量指標將合成數據與原始數據進行比較。 這些指標可用於衡量數據的相似性、準確性和完整性等。 Syntho 軟件包括一個數據質量報告,其中包含各種數據質量指標.
  • 外部評估:由於合成數據與原始數據相比的數據質量是關鍵,我們最近與 SAS(分析市場領導者)的數據專家進行了評估,以證明 Syntho 合成數據與真實數據相比的數據質量。 SAS 的分析專家 Edwin van Unen 通過各種分析 (AI) 評估評估了 Syntho 生成的合成數據集並分享了結果。 在此處觀看該視頻的簡短回顧.
  • 自己測試和評估:可以通過將合成數據與真實世界數據進行比較,或使用它來訓練機器學習模型並將其性能與基於真實世界數據訓練的模型進行比較來測試和評估合成數據。 為什麼不自己測試合成數據的數據質量呢? 在這裡向我們的專家詢問這種可能性

請務必注意,合成數據永遠不能保證與原始數據 100% 相似,但它可以足夠接近以對特定用例有用。 這個特定用例甚至可以是高級分析或訓練機器學習模型。

經典的“匿名化”並不總是最好的解決方案,因為:

  1. 隱私風險 – 你將永遠擁有
    隱私風險。 應用那些
    經典的匿名技術
    只會讓它更難,但不會
    無法識別個人。
  2. 銷毀數據 – 你越多
    匿名化,你保護得越好
    你的隱私,但你越多
    破壞你的數據。 這不是什麼
    你想要分析,因為
    破壞的數據會導致壞
    見解。
  3. 耗時的 – 這是一個解決方案
    這需要很多時間,因為
    這些技術的工作方式不同
    每個數據集和每個數據類型。

合成數據旨在解決所有這些缺點。 差異是如此驚人,以至於我們製作了一段視頻。 在這裡觀看.

常見問題解答

綜合數據

通常,我們的大多數客戶將合成數據用於:

  • 軟件測試與開發
  • 用於分析、模型開發和高級分析(AI 和 ML)的綜合數據
  • 產品演示

閱讀更多內容並探索用例.

合成數據孿生是真實世界數據集和/或數據庫的算法生成副本。 通過合成數據孿生,Syntho 旨在模擬原始數據集或數據庫,盡可能接近原始數據,以創建原始數據的真實表示。 使用合成數據孿生,我們的目標是與原始數據相比具有更高的合成數據質量。 我們通過使用最先進的人工智能模型的合成數據軟件來做到這一點。 這些 AI 模型生成全新的數據點,並以這樣一種方式對它們進行建模,即我們將原始數據的特徵、關係和統計模式保留到這樣的程度,以至於您可以像使用原始數據一樣使用它。

這可用於多種目的,例如測試和訓練機器學習模型、模擬研究和開發場景以及創建用於培訓和教育的虛擬環境。 合成數據孿生可用於創建真實且具有代表性的數據,當現實世界的數據不可用或由於嚴格的數據隱私法規而使用現實世界的數據不切實際或不道德時,這些數據可以用來代替現實世界的數據。

更多。

是的,我們有。 我們提供各種增值合成數據優化和擴充功能,包括 mockers,將您的數據提升到一個新的水平。

更多。

模擬數據和人工智能生成的合成數據都屬於合成數據,只是生成方式不同,用途不同。

模擬數據是一種人工創建的合成數據,通常用於測試和開發目的。 它通常用於在受控環境中模擬真實世界數據的行為,並且通常用於測試系統或應用程序的功能。 它通常很簡單,易於生成,並且不需要復雜的模型或算法。 通常,一個引用者還將模擬數據稱為“虛擬數據”或“虛假數據”。

另一方面,人工智能生成的合成數據是使用人工智能技術生成的,例如機器學習或生成模型。 它用於創建真實且具有代表性的數據,當由於嚴格的隱私法規而使用真實世界的數據不切實際或不道德時,這些數據可以用來代替真實世界的數據。 它通常比手動模擬數據更複雜,需要更多的計算資源。 因此,它更加逼真,並儘可能接近地模仿原始數據。

綜上所述,模擬數據是人工創建的,通常用於測試和開發,而人工智能生成的合成數據是使用人工智能技術創建的,用於創建具有代表性和真實性的數據。

更多問題? 諮詢我們的專家

數據質量

保證合成數據具有與原始數據相同的數據質量可能具有挑戰性,並且通常取決於特定用例和用於生成合成數據的方法。 一些生成合成數據的方法,例如生成模型,可以生成與原始數據高度相似的數據。 關鍵問題:如何證明這一點?

有一些方法可以確保合成數據的質量:

  • 通過我們的數據質量報告的數據質量指標:確保合成數據與原始數據具有相同數據質量的一種方法是使用數據質量指標將合成數據與原始數據進行比較。 這些指標可用於衡量數據的相似性、準確性和完整性等。 Syntho 軟件包括一個數據質量報告,其中包含各種數據質量指標.
  • 外部評估:由於合成數據與原始數據相比的數據質量是關鍵,我們最近與 SAS(分析市場領導者)的數據專家進行了評估,以證明 Syntho 合成數據與真實數據相比的數據質量。 SAS 的分析專家 Edwin van Unen 通過各種分析 (AI) 評估評估了 Syntho 生成的合成數據集並分享了結果。 在此處觀看該視頻的簡短回顧.
  • 自己測試和評估:可以通過將合成數據與真實世界數據進行比較,或使用它來訓練機器學習模型並將其性能與基於真實世界數據訓練的模型進行比較來測試和評估合成數據。 為什麼不自己測試合成數據的數據質量呢? 在這裡向我們的專家詢問這種可能性

請務必注意,合成數據永遠不能保證與原始數據 100% 相似,但它可以足夠接近以對特定用例有用。 這個特定用例甚至可以是高級分析或訓練機器學習模型。

是的。 合成數據甚至包含您不知道它們存在於原始數據中的模式。

但不要只相信我們的話。 SAS(分析領域的全球市場領導者)的分析專家對我們的合成數據進行了 (AI) 評估,並將其與原始數據進行了比較。 好奇的? 看著 整個活動在這裡 或觀看有關的簡短版本 數據質量在這裡.

是的,我們有。 我們的平台針對數據庫進行了優化,因此保留了數據庫中數據集之間的參照完整性。

想了解更多信息嗎?

直接諮詢我們的專家.

隱私

不,我們沒有。 我們可以通過 docker 在本地或您的私有云中輕鬆部署 Syntho Engine。

不會。我們優化了我們的平台,使其可以輕鬆部署在客戶信任的環境中。 這確保了數據永遠不會離開客戶的可信環境。 客戶可信環境的部署選項是“本地”和“客戶雲環境(私有云)”。

可選:Syntho 支持託管在“Syntho 雲”中的版本。

不是。Syntho Engine 是一個自助服務平台。 因此,使用 Syntho Engine 生成合成數據的方式是可能的 end-to-end 過程中,Syntho 永遠無法看到也永遠不需要處理數據。

是的,我們通過我們的質量檢查報告來做到這一點。

 

合成數據集時,必須證明無法重新識別個人。 在 此視頻, Marijn 引入了我們質量報告中的隱私措施來證明這一點。

Syntho 的 QA 報告包含三個 工業標準 評估數據隱私的指標。 每個指標背後的想法如下:

  • 合成數據(S) 應“盡可能接近”,但“不要太接近”目標數據 (T).
  • 隨機選擇的保持數據(H) 確定“太接近”的基準。
  • A 完美的解決方案 生成新的合成數據,其行為與原始數據完全相同,但以前從未見過(= H).

荷蘭數據保護局特別強調的一個用例是使用合成數據作為測試數據。

可以在這篇文章中找到更多內容。

合成引擎

Syntho Engine 裝在 Docker 容器中,可以輕鬆部署並插入到您選擇的環境中。

可能的部署選項包括:

  • 預置
  • 任何(私有)雲
  • 任何其他環境

阅读更多.

Syntho 使您能夠輕鬆連接數據庫、應用程序、數據管道或文件系統。 

我們支持各種集成連接器,以便您可以連接源環境(存儲原始數據的位置)和目標環境(您要將合成數據寫入的位置) end-to-end 綜合方法。

我們支持的連接功能:

  • 與 Docker 即插即用
  • 20 多個數據庫連接器
  • 20 多個文件系統連接器

阅读更多.

當然,生成時間取決於數據庫的大小。 平均而言,少於 1 萬條記錄的表在不到 5 分鐘的時間內被合成。

Syntho 的機器學習算法可以更好地概括具有更多可用實體記錄的特徵,從而降低隱私風險。 建議最小列與行的比例為 1:500。 例如,如果您的源表有 6 列,它應該至少包含 3000 行。

一點也不。 雖然要完全理解合成數據的優勢、工作原理和用例可能需要一些努力,但合成過程非常簡單,任何具有基本計算機知識的人都可以做到。 有關合成過程的更多信息,請查看 這頁 or 請求演示.

Syntho 引擎最適合處理結構化的表格數據(任何包含行和列的數據)。 在這些結構中,我們支持以下數據類型:

  • 結構化表格中的數據(分類、數字等)
  • 直接標識符和 PII
  • 大型數據集和數據庫
  • 地理位置數據(如 GPS)
  • 時間序列數據
  • 多表數據庫(具有參照完整性)
  • 打開文本數據

 

複雜數據支持
除了所有常規類型的表格數據之外,Syntho Engine 還支持複雜的數據類型和復雜的數據結構。

  • 時間序列
  • 多表數據庫
  • 開啟文字

阅读更多.

不,我們優化了我們的平台以最大限度地減少計算要求(例如不需要 GPU),而不會影響數據準確性。 此外,我們支持自動縮放,這樣就可以合成一個龐大的數據庫。

是的。 Syntho 軟件針對包含多個表的數據庫進行了優化。

至於這一點,Syntho 會自動檢測數據類型、模式和格式,以最大限度地提高數據準確性。 對於多表數據庫,我們支持自動表關係推斷和合成以保持引用完整性。

一群人微笑著

數據是合成的,但我們的團隊是真實的!

聯繫合成 我們的一位專家將以光速與您取得聯繫,探索合成數據的價值!