合成データの品質

SASデータ専門家による評価結果を含むデータ品質保証レポートをご覧ください。

合成データツインの利点

SynthoはAIを使用して(機密)データを模倣し、合成データの双子を生成します

Syntho は高度な人工知能 (AI) を利用して、機密データを正確に模倣する合成データを作成します。 私たちの目標は 最高精度の合成データを生成する、元のデータと比較して。 弊社の Syntho Engine ソフトウェア 最先端の機械学習モデルを使用することで、元のデータと同じ統計パターンと関係を維持しながら、まったく新しいデータ ポイントを生成できます。 その結果、元のデータの主要な特性を保持する合成データが生成され、実際のデータと見分けがつかなくなり、分析にも使用できるようになります。 したがって、この AI が生成した合成データを 合成データツイン、それは「実際のデータと比較して本物のように良い」からです。 合成データ ツインを活用することで、企業はさまざまな付加価値合成データを介して多くの利点を引き出すことができます ユースケース.

Synthoエンジン

本物そっくり?

重要な質問: 合成データは実際のデータと比較してどの程度正確ですか?

第1部

Syntho の品質保証 (QA) レポート

Syntho では、ビジネスにとって信頼できる正確なデータの重要性を理解しています。 それが理由です 合成データの実行ごとに包括的な品質保証レポートを提供します、元のデータと比較した合成データの精度を示しています。 当社の品質レポートには、分布、相関関係、多変量分布、プライバシー メトリックなどのさまざまなメトリックが含まれています。 このようにして、当社が提供する合成データが最高品質であり、元のデータと同じレベルの精度と信頼性で使用できることを簡単に評価できます。

品質レポート

第2部

SASのデータエキスパートによる外部評価

Syntho は、Syntho Engine によって自動的に生成される高度な品質保証レポートをユーザーに提供できることを誇りに思っていますが、 合成データの外部からの客観的評価. それが私たちが助けを求めた理由です SAS、一流のデータ専門家、私たちの合成データを評価します。

SAS Syntho の AI によって生成された合成データのデータ精度、プライバシー保護、および使いやすさについて、元のデータと比較してさまざまな徹底的な評価を行います。 結論として、 SAS 元のデータと比較して、Syntho の合成データが正確で、安全で、使いやすいものであると評価し、承認しました。

Syntho の品質保証 (QA) レポート

合成データ品質レポートのスナップショット

ディストリビューション

合成データの分布
分布は、特定のカテゴリまたは値の特定のデータレコードの頻度に関する洞察を提供し、Synthoエンジンによってキャプチャされます。 

相関

合成データの相関
相関関係は、XNUMXつの変数がどの程度関連していて、SynthoEngineによってキャプチャされるかについての洞察を提供します。  

多変量

合成データの多変量分布
多変量分布と相関は、カテゴリの組み合わせに関する洞察を提供し、Synthoエンジンによってもキャプチャされます。

SASによる合成データの評価

外部参照

ケーススタディについては、 ターゲットデータセットはテレコムでした データセット。 データセットには 128 列が含まれており、そのうちの XNUMX 列は、顧客が会社を辞めた (つまり、「解約」した) かどうかを示します。 このケーススタディの目標は、合成データを使用していくつかのモデルをトレーニングし、顧客離れを予測し、各モデルのパフォーマンスを評価することでした。 チャーン予測は分類タスクであるため、SAS は予測を行うために次の XNUMX つの一般的な分類モデルを選択しました。

  1. ランダムフォレスト
  2. 勾配ブースティング
  3. ロジスティック回帰
  4. ニューラルネットワーク

合成データを生成する前に、SASはテレコムデータセットをトレインセット(モデルのトレーニング用)とホールドアウトセット(モデルのスコアリング用)にランダムに分割します。 スコアリング用に個別のホールドアウトセットを設定すると、新しいデータに適用したときに分類モデルがどの程度うまくいくかを公平に評価できます。

列車セットを入力として使用し、 SynthoはSynthoEngineを使用して合成データセットを生成しました。 ベンチマークのために、SASは、さまざまな匿名化手法を適用して特定のしきい値(k-匿名性)に到達した後、列車セットの匿名化バージョンも作成しました。 前の手順では、次のXNUMXつのデータセットが作成されました。

  1. トレインデータセット(つまり、元のデータセットからホールドアウトデータセットを引いたもの)
  2. ホールドアウトデータセット(つまり、元のデータセットのサブセット)
  3. 匿名化されたデータセット(元のデータセットからホールドアウトデータセットを差し引いたものに基づく)
  4. 合成データセット(元のデータセットからホールドアウトデータセットを差し引いたものに基づく)

データセット1、3、および4を使用して各分類モデルをトレーニングし、12(3 x 4)のトレーニング済みモデルを作成しました。 その後、SASはホールドアウトデータセットを使用して、各モデルが顧客離れを予測する精度を測定しました。 結果は、いくつかの基本的な統計から始めて、以下に示されています。

Sasロゴ

私たちの合成データは 承認された SASのデータ専門家による

SASによる評価の結果

合成データ は、基本的なパターン (Syntho QA レポートの以前のプロットに示されている) だけでなく、高度な分析タスクに必要な深い「隠れた」統計パターンも捕捉します。 後者は棒グラフで示されており、合成データでトレーニングされたモデルと元のデータでトレーニングされたモデルの精度が同等であることを示しています。 さらに、 曲線下面積(AUC *) 0.5に近い、匿名化されたデータでトレーニングされたモデルは、はるかに最悪のパフォーマンスを示します。 元のデータと比較した合成データに関するすべての高度な分析評価を含む完全なレポートは、リクエストに応じて入手できます。

さらに、この合成データは、モデルの実際のトレーニングに必要なデータの特性と主要な変数を理解するために使用できます。 合成データのアルゴリズムによって選択された入力は、元のデータと比較して非常に類似していました。 したがって、モデリング プロセスはこの合成バージョンで実行できるため、データ侵害のリスクが軽減されます。 

AUC

SASによる大手病院に対する追加の評価結果

合成データは一致しますか? 精度 実際のデータの?

変数間の相関関係と関係は、合成データに正確に保存されました。

モデルのパフォーマンスを測定するための指標である曲線下面積 (AUC) は一貫したままでした。

さらに、モデル内の変数の予測力を示す変数の重要性は、合成データを元のデータセットと比較してもそのまま残りました。

これらの観察に基づいて、SAS Viya の Syntho Engine によって生成された合成データは品質の点で実際のデータと同等であると自信を持って結論付けることができます。 これにより、モデル開発における合成データの使用が検証され、悪化と死亡率の予測に焦点を当てたがん研究への道が開かれます。

SASによる評価の結論

合成データガイドを今すぐ保存してください!