従来の匿名化では、元のデータセットを操作または歪曲して個人の追跡を妨げるすべての方法論を意味します。
実際に見られる古典的な匿名化の典型的な例は、一般化、抑制/ワイプ、仮名化、行と列のシャッフルです。
これにより、これらの手法と対応する例が示されます。
技術 | 元データ | 操作されたデータ |
一般化 | 27歳 | 25〜30歳 |
抑制/拭き取り | info@syntho.ai | xxxx@xxxxxx.xx |
偽名化 | アムステルダム | hVFD6td3jdHHj78ghdgrewui6 |
行と列のシャッフル | 整列 | シャッフル |
従来の匿名化手法を使用してデータセットを操作すると、次の2つの主な欠点が生じます。
これらの2つの主な欠点、データユーティリティとプライバシー保護を示します。 これを、抑制と一般化を適用した次の図で行います。
注:説明のために画像を使用しています。 同じ原則が構造化データセットにも当てはまります。
これにより、データユーティリティとプライバシー保護の間のトレードオフが発生します。従来の匿名化手法では、常に両方の最適な組み合わせが提供されません。
いいえ。これは大きな誤解であり、匿名データにはなりません。 データセットを匿名化する方法として、これをまだ適用していますか? それならこのブログは必読です。
Synthoは、新しいデータレコードのまったく新しいデータセットを生成するソフトウェアを開発しています。 実際の個人を識別するための情報は、合成データセットには存在しません。 合成データにはソフトウェアによって生成された人工データレコードが含まれているため、個人データは単に存在せず、プライバシーリスクのない状況になります。
Synthoの主な違いは、機械学習を適用することです。 その結果、私たちのソリューションは、合成データセット内の元のデータセットの構造とプロパティを再現し、データの有用性を最大化します。 したがって、元のデータを使用する場合と比較して、合成データを分析する場合と同じ結果を得ることができます。
このケーススタディ Syntho Engineを介して生成された合成データからのさまざまな統計を含む品質レポートのハイライトを、元のデータと比較して示します。
結論として、合成データは、すべての従来の匿名化手法が提供する、データの有用性とプライバシー保護の間の典型的な次善のトレードオフを克服するための好ましいソリューションです。
結論として、データユーティリティとプライバシー保護の観点から、ユースケースで許可されている場合は常に合成データを選択する必要があります。
分析の価値 | プライバシーリスク | |
合成データ | ハイ | なし |
実際の(個人)データ | ハイ | ハイ |
操作されたデータ(従来の「匿名化」による) | 低 - 中 | 高いメディア |
Synthoによる合成データは、両方を最大化することにより、従来の匿名化手法では不十分なギャップを埋めます データユーティリティ & プライバシー保護.