AIで生成された合成データ、高品質のデータへの簡単かつ迅速なアクセス?

AIは実際に合成データを生成しました

AIで生成された合成データの専門家であるSynthoは、 privacy by design AIで生成された合成データで競争上の優位性を獲得します。 これらは、組織が高品質のデータに簡単かつ迅速にアクセスできる強力なデータ基盤を構築するのに役立ち、最近PhilipsInnovationAwardを受賞しました。

ただし、AIを使用した合成データ生成は比較的新しいソリューションであり、通常、よくある質問が発生します。 これらに答えるために、Synthoは、高度な分析とAIソフトウェアのマーケットリーダーであるSASと共同でケーススタディを開始しました。

Dutch AI Coalition(NL AIC)と協力して、Syntho Engineによって生成されたAI生成の合成データを、データ品質、法的有効性、および使いやすさに関するさまざまな評価を通じて元のデータと比較することにより、合成データの価値を調査しました。

データの匿名化は解決策ではありませんか?

従来の匿名化手法には、個人の追跡を妨げるために元のデータを操作するという共通点があります。 例としては、一般化、抑制、ワイプ、仮名化、データマスキング、行と列のシャッフルなどがあります。 以下の表に例を示します。

データの匿名化

これらの手法は、3つの重要な課題をもたらします。

  1. これらはデータ型ごとおよびデータセットごとに動作が異なるため、スケーリングが困難です。 さらに、それらは異なる働きをするので、どの方法を適用するか、そしてどの技術の組み合わせが必要かについて常に議論があります。
  2. 元のデータとは常にXNUMX対XNUMXの関係があります。 これは、特にすべてのオープンデータセットとそれらのデータセットをリンクするための利用可能な技術のために、常にプライバシーリスクが存在することを意味します。
  3. それらはデータを操作し、それによってその過程でデータを破壊します。 これは、「予測力」が不可欠なAIタスクにとって特に壊滅的です。これは、データの品質が悪いとAIモデルからの洞察が悪くなるためです(ガベージインはガベージアウトになります)。

これらのポイントは、このケーススタディでも評価されます。

ケーススタディの紹介

ケーススタディの場合、ターゲットデータセットは、56.600人の顧客のデータを含むSASによって提供されたテレコムデータセットでした。 データセットには128の列が含まれ、そのうちのXNUMXつの列は、顧客が会社を辞めた(つまり、「解約」した)かどうかを示します。 ケーススタディの目標は、合成データを使用していくつかのモデルをトレーニングし、顧客離れを予測し、それらのトレーニングされたモデルのパフォーマンスを評価することでした。 チャーン予測は分類タスクであるため、SASは次のようなXNUMXつの一般的な分類モデルを選択して予測を行いました。

  1. ランダムフォレスト
  2. 勾配ブースティング
  3. ロジスティック回帰
  4. ニューラルネットワーク

合成データを生成する前に、SASはテレコムデータセットをトレインセット(モデルのトレーニング用)とホールドアウトセット(モデルのスコアリング用)にランダムに分割します。 スコアリング用に個別のホールドアウトセットを設定すると、新しいデータに適用したときに分類モデルがどの程度うまく機能するかを公平に評価できます。

Synthoは、トレインセットを入力として使用し、SynthoEngineを使用して合成データセットを生成しました。 ベンチマークのために、SASは、さまざまな匿名化手法を適用して特定のしきい値(k-匿名性)に到達した後、列車セットの操作バージョンも作成しました。 前の手順では、次のXNUMXつのデータセットが作成されました。

  1. トレインデータセット(つまり、元のデータセットからホールドアウトデータセットを引いたもの)
  2. ホールドアウトデータセット(つまり、元のデータセットのサブセット)
  3. 匿名化されたデータセット(電車のデータセットに基づく)
  4. 合成データセット(電車のデータセットに基づく)

データセット1、3、および4を使用して各分類モデルをトレーニングし、12(3 x 4)のトレーニング済みモデルを作成しました。 その後、SASはホールドアウトデータセットを使用して、各モデルが顧客離れを予測する精度を測定しました。 結果は、いくつかの基本的な統計から始めて、以下に示されています。

SASで生成された機械学習パイプライン

図:SAS VisualDataMiningとMachineLearningで生成された機械学習パイプライン

匿名化されたデータを元のデータと比較する際の基本的な統計

匿名化手法は、基本的なパターン、ビジネスロジック、関係、および統計さえも破壊します(以下の例のように)。 したがって、基本的な分析に匿名化されたデータを使用すると、信頼性の低い結果が生成されます。 実際、匿名化されたデータの品質が低いため、高度な分析タスク(AI / MLモデリングやダッシュボードなど)にデータを使用することはほとんど不可能でした。

匿名化されたデータを元のデータと比較する

合成データと元のデータを比較する際の基本的な統計

AIを使用した合成データ生成では、基本的なパターン、ビジネスロジック、関係、および統計が保持されます(以下の例のように)。 したがって、基本的な分析に合成データを使用すると、信頼できる結果が得られます。 重要な質問ですが、合成データは高度な分析タスク(AI / MLモデリングやダッシュボードなど)に当てはまりますか?

合成データを元のデータと比較する

AIで生成された合成データと高度な分析

合成データは、基本的なパターン(前のプロットに示されている)だけでなく、高度な分析タスクに必要な深い「隠された」統計パターンもキャプチャします。 後者は下の棒グラフに示され、合成データでトレーニングされたモデルと元のデータでトレーニングされたモデルの精度が類似していることを示しています。 さらに、曲線下面積(AUC *)が0.5に近いため、匿名化されたデータでトレーニングされたモデルのパフォーマンスははるかに低くなります。 元のデータと比較した合成データに関するすべての高度な分析評価を含む完全なレポートは、リクエストに応じて入手できます。

* AUC:曲線の下の領域は、真陽性、偽陽性、偽陰性、および真陰性を考慮した、高度な分析モデルの精度の尺度です。 0,5は、モデルがランダムに予測し、予測力がないことを意味し、1は、モデルが常に正しく、完全な予測力があることを意味します。

さらに、この合成データを使用して、モデルの実際のトレーニングに必要なデータ特性と主な変数を理解できます。 元のデータと比較した合成データのアルゴリズムによって選択された入力は非常に似ていました。 したがって、この合成バージョンでモデリングプロセスを実行できるため、データ侵害のリスクが軽減されます。 ただし、個々のレコード(電話会社の顧客など)を推測する場合は、説明性、受け入れの増加、または規制のために、元のデータを再トレーニングすることをお勧めします。                              

メソッドごとにグループ化されたアルゴリズムによるAUC

AUC

結論:

  • 元のデータでトレーニングされたモデルと比較して、合成データでトレーニングされたモデルは、非常に類似したパフォーマンスを示します
  • 「従来の匿名化手法」を使用して匿名化されたデータでトレーニングされたモデルは、元のデータまたは合成データでトレーニングされたモデルと比較してパフォーマンスが劣ります。
  • この手法はデータセットごとおよびデータ型ごとにまったく同じように機能するため、合成データの生成は簡単かつ高速です。

付加価値のある合成データのユースケース

ユースケース1:モデル開発と高度な分析のための合成データ

モデル(ダッシュボード[BI]や高度な分析[AI&ML]など)を開発するには、使用可能な高品質のデータに簡単かつ迅速にアクセスできる強力なデータ基盤が不可欠です。 ただし、多くの組織はデータ基盤が最適ではないため、次の3つの重要な課題が発生します。

  • (プライバシー)規制、内部プロセス、またはデータサイロのため、データへのアクセスには時間がかかります
  • 従来の匿名化手法はデータを破壊し、データを分析や高度な分析に適さないものにします(ガベージイン=ガベージアウト)
  • 既存のソリューションは、データセットごとおよびデータタイプごとに動作が異なり、大規模なマルチテーブルデータベースを処理できないため、スケーラブルではありません。

合成データアプローチ:本物と同じくらい良い合成データを使用してモデルを開発し、次のことを行います。

  • 開発者の邪魔をせずに、元のデータの使用を最小限に抑えます
  • 個人データのロックを解除し、以前は制限されていたより多くのデータにアクセスできるようにします(プライバシーなどのため)
  • 関連データへの簡単で高速なデータアクセス
  • 各データセット、データ型、および大規模なデータベースで同じように機能するスケーラブルなソリューション

これにより、組織は、使用可能な高品質のデータに簡単かつ迅速にアクセスしてデータのロックを解除し、データの機会を活用できる強力なデータ基盤を構築できます。

 

ユースケース2:ソフトウェアのテスト、開発、配信のためのスマートな合成テストデータ

最先端のソフトウェアソリューションを提供するには、高品質のテストデータを使用したテストと開発が不可欠です。 元の生産データを使用することは明らかなようですが、(プライバシー)規制のために許可されていません。 別 Test Data Management (TDM)ツールは「legacy-by-design」テストデータを正しく取得するには:

  • 本番データとビジネスロジックを反映せず、参照整合性は保持されません
  • 遅くて時間がかかる作業
  • 手作業が必要です

合成データアプローチ:AIで生成された合成テストデータを使用してテストおよび開発し、次の機能を備えた最先端のソフトウェアソリューションを提供します。

  • ビジネスロジックと参照整合性が保持された本番環境のようなデータ
  • 最先端のAIによる簡単で高速なデータ生成
  • プライバシーバイデザイン
  • 簡単、迅速、 agile

これにより、組織は次のレベルのテストデータを使用してテストおよび開発し、最先端のソフトウェアソリューションを提供できます。

さらに詳しく

興味がある? 合成データの詳細については、SynthoのWebサイトにアクセスするか、WimKeesJanssenにお問い合わせください。 SASの詳細については、次のWebサイトをご覧ください。 www.sas.com またはkees@syntho.aiに連絡してください。

このユースケースでは、Syntho、SAS、およびNL AICが連携して、意図した結果を達成します。 SynthoはAIで生成された合成データの専門家であり、SASは分析のマーケットリーダーであり、データを探索、分析、視覚化するためのソフトウェアを提供しています。

* 2021年を予測–デジタルビジネスを統治、拡大、変革するためのデータおよび分析戦略、Gartner、2020年。

シンセガイドカバー

合成データガイドを今すぐ保存してください!