AIで生成された合成データの専門家であるSynthoは、 privacy by design AIで生成された合成データで競争上の優位性を獲得します。 これらは、組織が高品質のデータに簡単かつ迅速にアクセスできる強力なデータ基盤を構築するのに役立ち、最近PhilipsInnovationAwardを受賞しました。
ただし、AIを使用した合成データ生成は比較的新しいソリューションであり、通常、よくある質問が発生します。 これらに答えるために、Synthoは、高度な分析とAIソフトウェアのマーケットリーダーであるSASと共同でケーススタディを開始しました。
Dutch AI Coalition(NL AIC)と協力して、Syntho Engineによって生成されたAI生成の合成データを、データ品質、法的有効性、および使いやすさに関するさまざまな評価を通じて元のデータと比較することにより、合成データの価値を調査しました。
従来の匿名化手法には、個人の追跡を妨げるために元のデータを操作するという共通点があります。 例としては、一般化、抑制、ワイプ、仮名化、データマスキング、行と列のシャッフルなどがあります。 以下の表に例を示します。
これらの手法は、3つの重要な課題をもたらします。
これらのポイントは、このケーススタディでも評価されます。
ケーススタディの場合、ターゲットデータセットは、56.600人の顧客のデータを含むSASによって提供されたテレコムデータセットでした。 データセットには128の列が含まれ、そのうちのXNUMXつの列は、顧客が会社を辞めた(つまり、「解約」した)かどうかを示します。 ケーススタディの目標は、合成データを使用していくつかのモデルをトレーニングし、顧客離れを予測し、それらのトレーニングされたモデルのパフォーマンスを評価することでした。 チャーン予測は分類タスクであるため、SASは次のようなXNUMXつの一般的な分類モデルを選択して予測を行いました。
合成データを生成する前に、SASはテレコムデータセットをトレインセット(モデルのトレーニング用)とホールドアウトセット(モデルのスコアリング用)にランダムに分割します。 スコアリング用に個別のホールドアウトセットを設定すると、新しいデータに適用したときに分類モデルがどの程度うまく機能するかを公平に評価できます。
Synthoは、トレインセットを入力として使用し、SynthoEngineを使用して合成データセットを生成しました。 ベンチマークのために、SASは、さまざまな匿名化手法を適用して特定のしきい値(k-匿名性)に到達した後、列車セットの操作バージョンも作成しました。 前の手順では、次のXNUMXつのデータセットが作成されました。
データセット1、3、および4を使用して各分類モデルをトレーニングし、12(3 x 4)のトレーニング済みモデルを作成しました。 その後、SASはホールドアウトデータセットを使用して、各モデルが顧客離れを予測する精度を測定しました。 結果は、いくつかの基本的な統計から始めて、以下に示されています。
図:SAS VisualDataMiningとMachineLearningで生成された機械学習パイプライン
匿名化手法は、基本的なパターン、ビジネスロジック、関係、および統計さえも破壊します(以下の例のように)。 したがって、基本的な分析に匿名化されたデータを使用すると、信頼性の低い結果が生成されます。 実際、匿名化されたデータの品質が低いため、高度な分析タスク(AI / MLモデリングやダッシュボードなど)にデータを使用することはほとんど不可能でした。
AIを使用した合成データ生成では、基本的なパターン、ビジネスロジック、関係、および統計が保持されます(以下の例のように)。 したがって、基本的な分析に合成データを使用すると、信頼できる結果が得られます。 重要な質問ですが、合成データは高度な分析タスク(AI / MLモデリングやダッシュボードなど)に当てはまりますか?
合成データは、基本的なパターン(前のプロットに示されている)だけでなく、高度な分析タスクに必要な深い「隠された」統計パターンもキャプチャします。 後者は下の棒グラフに示され、合成データでトレーニングされたモデルと元のデータでトレーニングされたモデルの精度が類似していることを示しています。 さらに、曲線下面積(AUC *)が0.5に近いため、匿名化されたデータでトレーニングされたモデルのパフォーマンスははるかに低くなります。 元のデータと比較した合成データに関するすべての高度な分析評価を含む完全なレポートは、リクエストに応じて入手できます。
* AUC:曲線の下の領域は、真陽性、偽陽性、偽陰性、および真陰性を考慮した、高度な分析モデルの精度の尺度です。 0,5は、モデルがランダムに予測し、予測力がないことを意味し、1は、モデルが常に正しく、完全な予測力があることを意味します。
さらに、この合成データを使用して、モデルの実際のトレーニングに必要なデータ特性と主な変数を理解できます。 元のデータと比較した合成データのアルゴリズムによって選択された入力は非常に似ていました。 したがって、この合成バージョンでモデリングプロセスを実行できるため、データ侵害のリスクが軽減されます。 ただし、個々のレコード(電話会社の顧客など)を推測する場合は、説明性、受け入れの増加、または規制のために、元のデータを再トレーニングすることをお勧めします。
メソッドごとにグループ化されたアルゴリズムによるAUC
結論:
ユースケース1:モデル開発と高度な分析のための合成データ
モデル(ダッシュボード[BI]や高度な分析[AI&ML]など)を開発するには、使用可能な高品質のデータに簡単かつ迅速にアクセスできる強力なデータ基盤が不可欠です。 ただし、多くの組織はデータ基盤が最適ではないため、次の3つの重要な課題が発生します。
合成データアプローチ:本物と同じくらい良い合成データを使用してモデルを開発し、次のことを行います。
これにより、組織は、使用可能な高品質のデータに簡単かつ迅速にアクセスしてデータのロックを解除し、データの機会を活用できる強力なデータ基盤を構築できます。
ユースケース2:ソフトウェアのテスト、開発、配信のためのスマートな合成テストデータ
最先端のソフトウェアソリューションを提供するには、高品質のテストデータを使用したテストと開発が不可欠です。 元の生産データを使用することは明らかなようですが、(プライバシー)規制のために許可されていません。 別 Test Data Management (TDM)ツールは「legacy-by-design」テストデータを正しく取得するには:
合成データアプローチ:AIで生成された合成テストデータを使用してテストおよび開発し、次の機能を備えた最先端のソフトウェアソリューションを提供します。
これにより、組織は次のレベルのテストデータを使用してテストおよび開発し、最先端のソフトウェアソリューションを提供できます。
興味がある? 合成データの詳細については、SynthoのWebサイトにアクセスするか、WimKeesJanssenにお問い合わせください。 SASの詳細については、次のWebサイトをご覧ください。 www.sas.com またはkees@syntho.aiに連絡してください。
このユースケースでは、Syntho、SAS、およびNL AICが連携して、意図した結果を達成します。 SynthoはAIで生成された合成データの専門家であり、SASは分析のマーケットリーダーであり、データを探索、分析、視覚化するためのソフトウェアを提供しています。
* 2021年を予測–デジタルビジネスを統治、拡大、変革するためのデータおよび分析戦略、Gartner、2020年。