従来の匿名化(および仮名化)が匿名データを生成しない理由

古典的な匿名化とは何ですか?

従来の匿名化では、元のデータセットを操作または歪曲して個人の追跡を妨げるすべての方法論を意味します。

実際に見られる古典的な匿名化の典型的な例は、一般化、抑制/ワイプ、仮名化、行と列のシャッフルです。

これにより、これらの手法と対応する例が示されます。

技術 元データ 操作されたデータ
一般化 27歳 25〜30歳
抑制/拭き取り info@syntho.ai xxxx@xxxxxx.xx
偽名化 アムステルダム hVFD6td3jdHHj78ghdgrewui6
行と列のシャッフル 整列 シャッフル

従来の匿名化の欠点は何ですか?

従来の匿名化手法を使用してデータセットを操作すると、次の2つの主な欠点が生じます。

  1. データセットを歪めると、データ品質が低下します(つまり、データユーティリティ)。 これにより、従来のガベージインガベージアウトの原則が導入されます。
  2. プライバシーリスク 削減されますが 常に存在します。 これは、元のデータセットのバージョンを1対1の関係で保持および操作します。

これらの2つの主な欠点、データユーティリティとプライバシー保護を示します。 これを、抑制と一般化を適用した次の図で行います。

注:説明のために画像を使用しています。 同じ原則が構造化データセットにも当てはまります。

従来の匿名化は失敗します
  • 左: 古典的な匿名化をほとんど適用しないと、代表的な図になります。 ただし、個人は簡単に識別でき、プライバシーリスクは重大です。

 

  • 右: 従来の匿名化を厳しく適用すると、強力なプライバシー保護が実現します。 しかし、イラストは役に立たなくなります。

従来の匿名化手法では、データの有用性とプライバシー保護の組み合わせが最適ではありません。

これにより、データユーティリティとプライバシー保護の間のトレードオフが発生します。従来の匿名化手法では、常に両方の最適な組み合わせが提供されません。 

古典的な匿名化ユーティリティ曲線

データセットからすべての直接識別子(名前など)を削除することは解決策ですか?

いいえ。これは大きな誤解であり、匿名データにはなりません。 データセットを匿名化する方法として、これをまだ適用していますか? それならこのブログは必読です。

合成データはどのように異なりますか?

Synthoは、新しいデータレコードのまったく新しいデータセットを生成するソフトウェアを開発しています。 実際の個人を識別するための情報は、合成データセットには存在しません。 合成データにはソフトウェアによって生成された人工データレコードが含まれているため、個人データは単に存在せず、プライバシーリスクのない状況になります。

Synthoの主な違いは、機械学習を適用することです。 その結果、私たちのソリューションは、合成データセット内の元のデータセットの構造とプロパティを再現し、データの有用性を最大化します。 したがって、元のデータを使用する場合と比較して、合成データを分析する場合と同じ結果を得ることができます。

このケーススタディ Syntho Engineを介して生成された合成データからのさまざまな統計を含む品質レポートのハイライトを、元のデータと比較して示します。

結論として、合成データは、すべての従来の匿名化手法が提供する、データの有用性とプライバシー保護の間の典型的な次善のトレードオフを克服するための好ましいソリューションです。

古典的な匿名化ユーティリティ曲線

では、合成データを使用できるのに、なぜ実際の(機密)データを使用するのでしょうか。

結論として、データユーティリティとプライバシー保護の観点から、ユースケースで許可されている場合は常に合成データを選択する必要があります。

 分析の価値プライバシーリスク
合成データハイなし
実際の(個人)データハイハイ
操作されたデータ(従来の「匿名化」による)低 - 中高いメディア
アイデア

Synthoによる合成データは、両方を最大化することにより、従来の匿名化手法では不十分なギャップを埋めます データユーティリティ & プライバシー保護.

興味がある?

私たちと一緒に合成データの付加価値を探る