匿名化されたデータと合成データ

データ分析のデータテストを実行する前にデータを匿名化する場合、いくつかの要因が関係しています。

  1. ほとんどすべての場合、匿名化されたデータは、特定の一意の行(医療記録など)により、個人までさかのぼることができます。
  2. 匿名化または一般化すればするほど、より多くのデータを破壊します。 これにより、データの品質が低下し、洞察が低下します。
  3. 匿名化は、データ形式によって機能が異なります。 これは、スケーラブルではなく、非常に時間がかかる可能性があることを意味します

合成データは、これらすべての欠点などを解決します。 以下のビデオを見て、SAS(分析のグローバルマーケットリーダー)の分析専門家が、元のデータ、匿名化されたデータ、およびSynthoによって生成された合成データの品質の違いに関する彼の評価について説明します。

このビデオは、AIで生成された合成データに関するSyntho x SAS D [N]ACaféからキャプチャされています。 ここで完全なビデオを見つけてください。

Edwin van Unenが元のデータセットをSynthoに送信し、データセットを合成しました。 しかし、質問は「合成データを匿名化されたデータと比較するとどうなるか」ということでもありました。 匿名化されたデータでは多くの情報が失われるため、これはデータセットを合成するときにも発生しますか? まず、56.000行128列の企業チャーン情報を含む電気通信業界のデータセットから始めました。 このデータセットは、Edwinが合成と匿名化を比較できるように、合成と匿名化の両方が行われました。 その後、エドウィンはSASViyaを使用してモデリングを開始しました。 彼は、古典的な回帰手法と決定木を使用して、元のデータセットにいくつかのチャーンモデルを構築しましたが、ニューラルネットワーク、勾配ブースティング、ランダムフォレストなどのより高度な手法も使用しました。これらの種類の手法です。 モデルを構築するときに標準のSASViyaオプションを使用します。

次に、結果を確認します。 結果は、匿名化ではなく、合成データにとって非常に有望でした。 聴衆の機械学習を行わない専門家のために、モデルの精度について何かを伝えるROC曲線の下の領域を調べます。 元のデータを匿名化されたデータと比較すると、元のデータモデルのROC曲線の下の領域は8であり、かなり良好ですが、匿名化されたデータのROC曲線の下の領域は6です。 これは、匿名化されたモデルでは多くの情報が失われるため、多くの予測力が失われることを意味します。

しかし、問題は、合成データについてはどうでしょうか。 ここでは、まったく同じことを行いましたが、データを匿名化する代わりに、Synthoがデータを合成しました。 これで、元のデータと合成データの両方で、ROC曲線の下に8の領域があります。これは非常によく似ています。 変動性のために完全に同じではありませんが、非常に似ています。 つまり、合成データの可能性は非常に有望です。エドウィンはこれに非常に満足しています。

笑顔の人々のグループ

データは合成ですが、私たちのチームは本物です。

Synthoに連絡する 専門家のXNUMX人が光速であなたと連絡を取り、合成データの価値を探ります。