在合成數據集時,合成數據必須不包含可用於重新識別個人的敏感信息。 這樣,我們可以保證合成數據中沒有 PII。 在下面的視頻中,Marijn 介紹了我們質量報告中的隱私措施來證明這一點。
該視頻來自 Syntho x SAS D[N]A Café,關於 AI 生成的合成數據。 在這裡找到完整的視頻。
我們在生成合成數據時採取了哪些隱私保護措施?
主要是,這些是防止過度擬合的指標,著眼於距離測量。 這意味著他們檢查合成數據與原始數據的接近程度。 如果距離太近,則可能存在隱私風險。 這些指標確保合成數據不會太接近原始數據。 此外,在執行此操作時,Syntho Engine 還使用一個保持集來以公平的方式執行此操作。