合成データの評価
SASデータエキスパート

私たちの合成データは評価され、
SASのデータ専門家によって承認

デモを予約する

データによる結論
SASの専門家

Syntho の合成データは SAS のデータ専門家によって厳密に評価および承認されており、その正確性と有用性が確認されています。

合成パフォーマンスとオリジナルパフォーマンス
合成パフォーマンスとオリジナルパフォーマンス
元のデータでトレーニングされたモデルと比較して、合成データでトレーニングされたモデルは、非常に類似したパフォーマンスを示します
匿名データのパフォーマンスギャップ
匿名データのパフォーマンスギャップ
「従来の匿名化手法」を使用して匿名化されたデータでトレーニングされたモデルは、元のデータまたは合成データでトレーニングされたモデルと比較してパフォーマンスが劣ります。
高速合成データ生成
高速合成データ生成
この手法はデータセットごとおよびデータ型ごとにまったく同じように機能するため、合成データの生成は簡単かつ高速です。

SASによるデータ評価の初期結果

合成データでトレーニングされたモデルのスコア
モデルと比較して非常に類似している
オリジナルデータでトレーニング

AI アルゴリズムは、現実世界のデータからパターンと関係性を学習し、これらの特性を厳密に模倣した新しい合成データを生成します。この合成データは非常に正確であるため、現実世界のデータのように機能する「合成データ ツイン」として機能し、高度な分析に使用できます。

匿名化されたデータでトレーニングされたモデルのスコアが悪化するのはなぜですか?

従来の匿名化技術に共通するのは、個人の追跡を阻止するために元のデータを操作するという点です。これらの技術では、データを操作することで、その過程でデータが破壊されます。匿名化が進むほど、データの保護は強化されますが、破壊されるデータも増えます。

これは、「予測力」が不可欠な AI およびモデリング タスクにとって特に壊滅的です。品質の悪いデータは AI モデルから得られる洞察の質を低下させるからです。SA​​S はこれを実証し、曲線下面積 (AUC*) が 0.5 に近づき、匿名化されたデータでトレーニングされたモデルのパフォーマンスがはるかに悪いことを証明しました。

匿名化されたデータでトレーニングされたモデルのスコアが悪化するのはなぜですか?

SAS はこの評価中に何をしましたか?

Syntho によって生成された合成データは、SAS のデータ専門家によって外部の客観的な観点から評価、検証、承認されます。

01
通信データが標的

私たちは、通信データを使用して「解約」を予測し、合成データをどのように活用してモデルをトレーニングし、そのパフォーマンスを評価するかに焦点を当てました。

02
モデルの選択

SAS は予測のために一般的な分類モデルを選択しました。
ランダムフォレスト

  • 勾配ブースティング
  • ロジスティック回帰
  • ニューラルネットワーク
03
データ分割

合成データを生成する前に、通信データセットはランダムに次のように分割されました。

  • トレーニング セット: モデルのトレーニングに使用されます。
  • ホールドアウト セット: 偏りのないモデルのスコアリングに使用されます。
04
合成データと匿名データの生成

Syntho はトレーニング セットを使用して合成データセットを生成しました。さらに、SAS は同じデータを使用して匿名データセットを作成し、次の 4 つのデータセットを作成しました。

  • オリジナル列車データセット
  • ホールドアウトデータセット
  • 匿名化されたデータセット
  • 合成データセット
05
モデルトレーニング

各データセット (オリジナル、匿名化、合成) を使用して、解約予測モデルをトレーニングしました。その結果、合計 12 のトレーニング済みモデル (3 つのデータセット x 4 つのモデル) が作成されました。モデルはそれぞれのデータセットを使用してトレーニングされ、解約結果をどれだけ正確に予測できるかが評価されました。トレーニング後、すべてのモデルとデータセットにわたって偏りのないパフォーマンス評価を確実に行うために、ホールドアウト データセットを使用してモデルの精度が評価されました。

06
モデルパフォーマンス評価

SAS は、ホールドアウト データセットを使用して各モデルの精度を評価し、顧客離脱の予測パフォーマンスを測定しました。また、データの精度、プライバシー保護、使いやすさについても詳細な評価を実施し、Syntho の合成データは元のデータと比較して正確で安全かつ使用可能であると結論付けました。

SASによる合成データ評価の追加結果

Synthoによって生成された合成データは評価され、検証され、 SAS のデータ専門家によって外部の客観的な観点から承認されています。

相関

相関関係と関係

変数間の相関関係と関係は、合成データに正確に保存されました。

曲線下面積 (AUC)

モデルのパフォーマンスを測定するための指標である曲線下面積 (AUC) は一貫したままでした。

モデルのパフォーマンスを測定するための曲線下面積モデルメトリック
変数の重要性

モデル内の変数の予測力を示す変数の重要度は、合成データと元のデータセットを比較してもそのまま残りました。

合成データとオリジナルデータを比較した変数の重要性

関連記事

オランダ商工会議所 (KVK) の合成データ
オランダ商工会議所 (KVK) の合成データ
オランダの大手銀行によるソフトウェア開発およびテスト用の合成データ
オランダの大手銀行によるソフトウェア開発およびテスト用の合成データ
最先端のEMRおよびヘルスケアソリューションによる合成テストおよび開発データ
最先端のEMRおよびヘルスケアソリューションによる合成テストおよび開発データ