SASのデータ専門家による合成データの外部評価

私たちの合成データは 評価された 承認された データ専門家による SAS

SASのデータ専門家による合成データの外部評価のご紹介

私たちが何をしたのですか?

Syntho によって生成された合成データは、SAS のデータ専門家によって外部の客観的な観点から評価、検証、承認されます。

当社の合成データがSASのデータ専門家によって外部評価されるのはなぜですか?

Syntho は、高度な品質保証レポートをユーザーに提供できることを誇りに思っていますが、業界リーダーから当社の合成データを外部かつ客観的に評価してもらうことの重要性も理解しています。そのため、当社は分析分野のリーダーである SAS と協力して合成データを評価しています。

SAS は、Syntho の AI によって生成された合成データを元のデータと比較して、データの精度、プライバシー保護、使いやすさに関してさまざまな徹底的な評価を実施します。結論として、SAS は、Syntho の合成データが元のデータと比較して正確で、安全で、使用可能であると評価し、承認しました。

SAS はこの評価中に何をしましたか?

対象データとしては、「チャーン」予測に使用される通信データを使用しました。評価の目的は、合成データを使用してさまざまなチャーン予測モデルをトレーニングし、各モデルのパフォーマンスを評価することでした。チャーン予測は分類タスクであるため、SAS は予測を行うために次のような一般的な分類モデルを選択しました。

  1. ランダムフォレスト
  2. 勾配ブースティング
  3. ロジスティック回帰
  4. ニューラルネットワーク

合成データを生成する前に、SASはテレコムデータセットをトレインセット(モデルのトレーニング用)とホールドアウトセット(モデルのスコアリング用)にランダムに分割します。 スコアリング用に個別のホールドアウトセットを設定すると、新しいデータに適用したときに分類モデルがどの程度うまくいくかを公平に評価できます。

Syntho は、トレイン セットを入力として使用し、Syntho エンジンを使用して合成データセットを生成しました。ベンチマークのために、SAS はさまざまな匿名化技術を適用して (k-匿名性の) 特定のしきい値に達した後、トレインセットの匿名化バージョンも作成しました。前の手順により、次の 4 つのデータセットが作成されました。

  1. トレインデータセット(つまり、元のデータセットからホールドアウトデータセットを引いたもの)
  2. ホールドアウトデータセット(つまり、元のデータセットのサブセット)
  3. 匿名化されたデータセット (トレイン データセットの匿名化されたデータ、元のデータセットからホールドアウト データセットを差し引いたもの)
  4. 合成データセット (トレイン データセットの合成データ、元のデータセットからホールドアウト データセットを差し引いたもの)

データセット 1、3、および 4 を使用して各分類モデルをトレーニングし、12 (3 x 4) のトレーニング済みモデルが得られました。 SAS はその後、ホールドアウト データセットを使用して、顧客離れの予測における各モデルの精度を測定しました。

SAS は、Syntho の AI によって生成された合成データを元のデータと比較して、データの精度、プライバシー保護、使いやすさに関してさまざまな徹底的な評価を実施します。結論として、SAS は、Syntho の合成データが元のデータと比較して正確で、安全で、使用可能であると評価し、承認しました。

何か質問がありますか?

弊社の専門家にご相談ください

SASによるデータ評価の初期結果

合成データでトレーニングされたモデルは、元のデータでトレーニングされたモデルと比較して非常に類似したスコアを獲得します

Syntho の合成データは、基本的なパターンだけでなく、高度な分析タスクに必要な深い「隠れた」統計パターンも捕捉します。後者は棒グラフで示されており、合成データでトレーニングされたモデルと元のデータでトレーニングされたモデルの精度が同等であることを示しています。したがって、合成データはモデルの実際のトレーニングに使用できます。元のデータと比較した合成データのアルゴリズムによって選択された入力と変数の重要度は非常に類似していました。したがって、実際の機密データを使用する代わりに、合成データに対してモデリング プロセスを実行できると結論付けられます。

匿名化されたデータでトレーニングされたモデルのスコアが悪化するのはなぜですか?

古典的な匿名化技術には、個人の追跡を妨げるために元のデータを操作するという共通点があります。彼らはデータを操作し、その過程でデータを破壊します。匿名化を増やすほど、データの保護は強化されますが、データの破壊も増えます。これは、「予測力」が不可欠な AI およびモデリングのタスクにとって特に壊滅的です。質の悪いデータは AI モデルからの悪い洞察につながるためです。 SAS はこれを実証し、曲線下面積 (AUC*) が 0.5 に近づき、匿名化されたデータでトレーニングされたモデルのパフォーマンスが断然最悪であることを実証しました。

SASによる合成データ評価の追加結果

SASによる合成データ評価の追加結果

変数間の相関関係と関係は、合成データに正確に保存されました。

モデルのパフォーマンスを測定するための指標である曲線下面積 (AUC) は一貫したままでした。

さらに、モデル内の変数の予測力を示す変数の重要性は、合成データを元のデータセットと比較してもそのまま残りました。

SAS と SAS Viya の使用によるこれらの観察に基づいて、Syntho Engine によって生成された合成データは品質の点で実際のデータと同等であると自信を持って結論付けることができます。これにより、モデル開発での合成データの使用が検証され、合成データを使用した高度な分析への道が開かれます。

SASのデータ専門家による結論

私たちの合成データは 承認された データ専門家による SAS ロゴ

参考記事

シンセガイドカバー

合成データガイドを今すぐ保存してください!