合成データの品質

合成データツインの概念を説明

SynthoはAIを使用して(機密)データを模倣し、合成データの双子を生成します

ととも​​に 合成データツイン、Synthoは、元のデータと同等の優れた合成データ品質を目指しています。 これは、最先端の機械学習モデルを使用する合成データソフトウェアを使用して行います。 これらのMLモデルは、完全に新しいデータポイントを生成し、元のデータの特性、関係、統計パターンを、元のデータであるかのように使用できる程度に保持するようにモデル化します。 これは、私たちが合成データツインと呼んでいるものです– 元のデータに見られるように、特性、関係、およびパターンが保持された合成データ.

シンソエンジンによるAIによる合成データ生成

まるでそれが元のデータであるかのように?

生成された合成データを評価する方法

品質レポートをご覧ください

ステップ1

品質レポート

Synthoは、生成されたすべての合成データセットの品質レポートを提供して、参照整合性、分布、相関、多変量分布などを示します。

ステップ2

SASによる外部評価

ここで、SASは、データ品質、法的有効性、および使いやすさに関するさまざまな(AI)評価を介して、SynthoからAIで生成された合成データを元のデータセットと比較します。

SAS

合成データ品質レポート

合成データ品質レポートのスナップショット

ディストリビューション

合成データの分布
分布は、特定のカテゴリまたは値の特定のデータレコードの頻度に関する洞察を提供し、Synthoエンジンによってキャプチャされます。 

相関

合成データの相関
相関関係は、XNUMXつの変数がどの程度関連していて、SynthoEngineによってキャプチャされるかについての洞察を提供します。  

多変量

合成データの多変量分布
多変量分布と相関は、カテゴリの組み合わせに関する洞察を提供し、Synthoエンジンによってもキャプチャされます。

外部参照

SASによる合成データの評価

ケーススタディについては、 ターゲットデータセットはテレコムでした 56.600人の顧客のデータを含むSASが提供するデータセット。 データセットには128の列が含まれ、そのうちのXNUMXつの列は、顧客が会社を辞めた(つまり、「解約」した)かどうかを示します。 ケーススタディの目標は、合成データを使用していくつかのモデルをトレーニングし、顧客離れを予測し、各モデルのパフォーマンスを評価することでした。 チャーン予測は分類タスクであるため、SASは次のようなXNUMXつの一般的な分類モデルを選択して予測を行いました。

  1. 決定木
  2. ランダムフォレスト
  3. 勾配ブースティング
  4. ロジスティック回帰
  5. ニューラルネットワーク

合成データを生成する前に、SASはテレコムデータセットをトレインセット(モデルのトレーニング用)とホールドアウトセット(モデルのスコアリング用)にランダムに分割します。 スコアリング用に個別のホールドアウトセットを設定すると、新しいデータに適用したときに分類モデルがどの程度うまくいくかを公平に評価できます。

列車セットを入力として使用し、 SynthoはSynthoEngineを使用して合成データセットを生成しました。 ベンチマークのために、SASは、さまざまな匿名化手法を適用して特定のしきい値(k-匿名性)に到達した後、列車セットの匿名化バージョンも作成しました。 前の手順では、次のXNUMXつのデータセットが作成されました。

  1. トレインデータセット(つまり、元のデータセットからホールドアウトデータセットを引いたもの)
  2. ホールドアウトデータセット(つまり、元のデータセットのサブセット)
  3. 匿名化されたデータセット(元のデータセットからホールドアウトデータセットを差し引いたものに基づく)
  4. 合成データセット(元のデータセットからホールドアウトデータセットを差し引いたものに基づく)

データセット1、3、および4を使用して各分類モデルをトレーニングし、15(3 x 5)のトレーニング済みモデルを作成しました。 その後、SASはホールドアウトデータセットを使用して、各モデルが顧客離れを予測する精度を測定しました。 結果は、いくつかの基本的な統計から始めて、以下に示されています。

評価結果

SASによる評価の結果

合成データ (前のプロットに示されているように)基本的なパターンだけでなく、高度な分析タスクに必要な深い「隠された」統計パターンもキャプチャします。 後者は棒グラフで示され、合成データでトレーニングされたモデルと元のデータでトレーニングされたモデルの精度が同等であることを示しています。 さらに、 曲線下面積(AUC *) 0.5に近い、匿名化されたデータでトレーニングされたモデルは、はるかに最悪のパフォーマンスを示します。 元のデータと比較した合成データに関するすべての高度な分析評価を含む完全なレポートは、リクエストに応じて入手できます。

さらに、 この合成データは、モデルの実際のトレーニングに必要なデータ特性と主な変数を理解するために使用できます。。 元のデータと比較した合成データのアルゴリズムによって選択された入力は非常に似ていました。 したがって、この合成バージョンでモデリングプロセスを実行できるため、データ侵害のリスクが軽減されます。 ただし、個々のレコード(telcoの顧客など)を推測する場合は、説明のしやすさ、受け入れの増加、または規制のために、元のデータを再トレーニングすることをお勧めします。    

合成データの品質

Synthoによる合成データのデータ精度を心配する必要はありません。」

Sasロゴ
Synthoと生成された合成データツインのデータ品質に関するビデオを再生します。

結論

SASによる評価の結論

synthoガイド-AIで生成された合成データプラットフォーム

合成データガイドを今すぐ保存してください!