すべての投稿を見る

合成データ ジェネレーターの有用性と類似性の評価: 技術的な詳細と比較分析

記事の著者
ミハイ・アンカ博士
ミハイ・アンカ博士 機械学習エンジニア
目次

組織はデータ匿名化ツールを使用して、データセットから個人を特定できる情報を削除します。コンプライアンス違反は、規制当局からの高額な罰金やデータ漏洩につながる可能性があります。データを匿名化しないと、データセットを最大限に活用したり共有したりすることはできません。

多くの匿名化ツールは完全なコンプライアンスを保証できません。従来の方法では、個人情報が悪意のある人物による匿名化に対して脆弱になる可能性があります。一部の統計的匿名化方法では、データセットの品質が低下し、データ分析に信頼できないレベルにまで低下します。

我々で シント をご紹介します 匿名化の方法 また、旧世代のツールと次世代のツールの主な違いについても説明します。最適なデータ匿名化ツールについて説明し、それらを選択するための重要な考慮事項を提案します。

Synthoガイド

合成データ生成のガイド

合成データジェネレーターとは何ですか?

この難問を解決するには、合成データを入力します。合成データ ジェネレーターは、匿名性と機密性を維持しながら、実際のユーザー データを模倣するデータセットを作成します。このアプローチは、医療から金融に至るまで、プライバシーが最優先される業界全体で注目を集めています。

この投稿は、合成データ ジェネレーターの評価に焦点を当て、データの専門家や愛好家向けに作成されています。主要な指標を詳しく調べ、Syntho のエンジンとそのオープンソースの代替手段との比較分析を実施し、合成データ生成のソリューション品質を効果的に評価する方法に関する洞察を提供します。さらに、モデルの動作についてのさらなる洞察を提供するために、これらの各モデルの時間コストも評価します。

適切な合成データ生成方法を選択するにはどうすればよいですか?

合成データ生成の多様な状況では、利用可能な手法が豊富にあり、それぞれが独自の機能で注目を集めています。特定のアプリケーションに最適な方法を選択するには、各オプションのパフォーマンス特性を完全に理解する必要があります。そのため、情報に基づいた意思決定を行うには、明確に定義された一連の指標に基づいてさまざまな合成データ ジェネレーターを包括的に評価する必要があります。

以下は、Syntho Engine と、よく知られているオープンソース フレームワークである Synthetic Data Vault (SDV) との厳密な比較分析です。この分析では、統計的忠実度、予測精度、変数間の関係など、一般的に使用される多くの指標を使用しました。

合成データの評価指標

特定の指標を導入する前に、合成データの評価には多数のイデオロギーがあり、それぞれがデータの特定の側面についての洞察を与えることを認識する必要があります。これを念頭に置くと、次の 3 つのカテゴリが重要かつ包括的なものとして際立っています。これらのメトリクスは、データ品質のさまざまな側面についての洞察を提供します。これらのカテゴリは次のとおりです。

  1. 統計的忠実度メトリクス: 平均や分散などのデータの基本的な統計的特徴を調べて、合成データが元のデータセットの統計プロファイルと一致していることを確認します。
  2. 予測精度: オリジナルデータでトレーニングし、合成データで評価した合成データ生成モデルのパフォーマンスを調べる (実際のトレーニング - 合成テスト、TRTS)、またはその逆 (合成トレーニング - 実際のテスト、TSTR)
  3. 変数間の関係: この複合カテゴリには以下が含まれます:
  • 特徴の相関: 相関係数を使用して、合成データが変数間の関係をどの程度維持しているかを評価します。傾向平均二乗誤差 (PMSE) などのよく知られた指標はこのタイプです。
  • 相互情報: 変数間の相互依存性を測定して、単なる相関関係を超えた関係の深さを理解します。

比較分析: Syntho エンジンとオープンソースの代替エンジン

比較分析は、標準化された評価フレームワークと、Syntho Engine および SDV モデルを含むすべてのモデルにわたる同一のテスト手法を使用して実行されました。同一のソースからデータセットを合成し、それらに同じ統計テストと機械学習モデルの評価を適用することで、公平で公平な比較を保証します。次のセクションでは、上で示したさまざまなメトリクスにわたる各合成データ ジェネレーターのパフォーマンスについて詳しく説明します。  

評価に使用したデータセットは、 UCI 成人の国勢調査データセット これは機械学習コミュニティではよく知られているデータセットです。すべてのトレーニングの前にデータをクリーンアップし、データセットを 1 つのセット (トレーニング セットとテスト用のホールドアウト セット) に分割しました。トレーニング セットを使用して、各モデルで XNUMX 万個の新しいデータ ポイントを生成し、生成されたこれらのデータセットでさまざまなメトリックを評価しました。さらに機械学習を評価するために、ホールドアウト セットを使用して、TSTR や TRTS に関連するメトリックなどを評価しました。  

各ジェネレーターはデフォルトのパラメーターを使用して実行されました。 Syntho などの一部のモデルは、すぐに使用できる表形式データを処理できるため、微調整は行われませんでした。各モデルに適切なハイパーパラメータを検索するにはかなりの時間がかかります。また、表 2 には、Syntho のモデルとテスト対象のモデルとの間に大きな時間差があることがすでに示されています。 

SDV の他のモデルとは対照的に、ガウス コピュラ シンセサイザーは統計的手法に基づいていることは注目に値します。対照的に、残りは敵対的生成ネットワーク (GAN) モデルや変分自動エンコーダーなどのニューラル ネットワークに基づいています。これが、ガウス コピュラが議論されているすべてのモデルのベースラインとしてみなされる理由です。 

結果

データ品質

すべてのモデルの基本品質結果の視覚化

前に説明した傾向とデータの表現への準拠は、図 1 と表 1 に示されています。ここで、使用されている各指標は次のように解釈できます。

  • 全体的な品質スコア: 統計的な類似性やデータ特性などのさまざまな側面を組み合わせた、合成データの品質の総合的な評価。 
  • 柱の形状: 合成データが各列の実際のデータと同じ分布形状を維持しているかどうかを評価します。 
  • 列ペアのトレンド: 合成データ内の列のペア間の関係または相関関係を実際のデータと比較して評価します。

全体的に、Syntho は全般的に非常に高いスコアを達成しています。まず、全体的なデータ品質 (SDV メトリック ライブラリで評価) を見ると、Syntho は 99% 以上の結果を達成できます (列形状の順守率は 99.92%、列ペア形状の順守率は 99.31%)。一方、SDV は最大 90.84% の結果を達成しています (ガウス コピュラでは、列形状の順守率は 93.82%、列ペア形状の順守率は 87.86%)。 

モデルごとに生成された各データセットの品質スコアの表形式表現

データカバレッジ

SDV の診断レポート モジュールにより、SDV で生成されたデータ (すべてのケース) に数値範囲の 10% 以上が欠落していることがわかりました。Triplet-Based Variational Autoencoder (TVAE) の場合、元のデータセットと比較すると、同じ量のカテゴリ データも欠落しています。Syntho を使用して得られた結果では、このような警告は生成されませんでした。  

すべてのモデルの列ごとの平均パフォーマンス メトリックの視覚化

比較分析では、図 2 のプロットは、SDV アーカイブの一部のモデル (つまり、GaussianCopula、CopulaGAN、および条件付き表形式 GAN – CTGAN) のカテゴリ カバレッジにおいてわずかに優れた結果をアーカイブしていることを示しています。それにもかかわらず、カテゴリおよび範囲にわたるカバレッジの差異がわずか 1.1% の差異を示すだけであり、Syntho のデータの信頼性が SDV モデルの信頼性を上回っていることを強調することが重要です。対照的に、SDV モデルは 14.6% から 29.2% までのかなりのばらつきを示します。 

ここで表されるメトリックは次のように解釈できます。 

  • カテゴリ範囲: 実際のデータと比較して、合成データ内のすべてのカテゴリの存在を測定します。
  • 範囲のカバレッジ: 合成データの値の範囲が実際のデータの値の範囲とどの程度一致するかを評価します。 
モデルごとの特定の属性タイプの平均カバレッジ

ユーティリティ

合成データの有用性という話題に移ると、データ上でのモデルのトレーニングの問題が重要になります。すべてのフレームワークをバランスよく公平に比較​​するために、SciKit Learn ライブラリのデフォルトの Gradient Boosting Classifier を選択しました。これは、すぐに使用できる設定でパフォーマンスの高いモデルとして広く受け入れられているからです。  

2 つの異なるモデルがトレーニングされます。1 つは合成データ (TSTR 用) に基づいて、もう 1 つは元のデータ (TRTS 用) に基づいてトレーニングされます。合成データでトレーニングされたモデルはホールドアウト テスト セット (合成データの生成中には使用されなかった) を使用して評価され、元のデータでトレーニングされたモデルは合成データセットでテストされます。  

方法別の列パフォーマンス メトリックの AUC スコア

上で視覚化した結果は、他の方法と比較して、Syntho エンジンによる合成データ生成の優位性を示しており、異なる方法で得られた結果に違いがないことがわかります (合成データと実際のデータの類似性が高いことを示しています)。また、プロットにある赤い点線は、実際のトレーニング、実際のテスト (TRTR) テストの基本パフォーマンスを評価して、観察されたメトリクスのベースラインを提供することによって得られた結果です。この線は値 0.92 を表します。これは、実際のデータでトレーニングされ、実際のデータでテストされたモデルによって達成される曲線下面積スコア (AUC スコア) です。 

Aucスコア

時間的な比較

当然のことながら、これらの結果を生成するために費やした時間を考慮することが重要です。以下の視覚化はまさにこれを示しています。

トレーニングと合成データ生成にかかる時間のグラフ

図 5 は、16 つの異なる設定で合成データを生成するのにかかる時間を示しています。最初の設定 (ここでは GPU なしと呼びます) は、2.20 GHz で動作する 9 コアの Intel Xeon CPU を搭載したシステムで実行されたテストです。「GPU ありで実行」とマークされたテストは、7945 GHz で動作する 16 コアの AMD Ryzen 2.5 4070HX CPU と NVIDIA GeForce RTX 2 Laptop GPU を搭載したシステムで実行されました。図 2 と下の表 XNUMX からわかるように、Syntho は合成データの生成が (どちらのシナリオでも) 大幅に高速であることがわかります。これは、動的なワークフローで重要です。 

1万データポイントの合成データ生成にかかる時間の表

結論と今後の方向性 

この調査結果は、適切な合成データ生成方法を選択する際に、徹底的な品質評価の重要性を強調しています。 Syntho のエンジンは、AI 主導のアプローチを採用しており、特定の指標において注目に値する強みを示していますが、SDV のようなオープンソース ツールは、その多用途性とコミュニティ主導の改善において優れています。 

合成データの分野は進化し続けるため、これらの指標をプロジェクトに適用し、その複雑さを調査し、経験を共有することをお勧めします。他のメトリクスをさらに深く掘り下げ、その適用例を実際に取り上げる今後の投稿にご期待ください。 

結局のところ、合成データを試してみたい人にとって、ここで紹介したオープンソースの代替手段は、アクセスしやすさを考えると正当な選択です。しかし、この最新技術を開発プロセスに取り入れる専門家にとっては、改善のチャンスはすべて活かし、あらゆる障害を回避する必要があります。したがって、利用できる最良のオプションを選択することが重要です。上記の分析から、Syntho と Syntho Engine が実践者にとって非常に有能なツールであることがかなり明らかになります。 

Synthoについて

シント は、複数の合成データ形式と生成方法を活用するスマートな合成データ生成プラットフォームを提供し、組織がデータをインテリジェントに競争力に変換できるようにします。当社の AI 生成の合成データは、元のデータの統計パターンを模倣し、SAS などの外部専門家による評価どおり、正確さ、プライバシー、速度を保証します。スマートな匿名化機能と一貫したマッピングにより、参照整合性を維持しながら機密情報が保護されます。当社のプラットフォームは、対象となるシナリオ向けのルールベースの合成データ生成手法を利用して、非実稼働環境のテスト データの作成、管理、制御を可能にします。さらに、ユーザーは合成データをプログラムで生成し、現実的なテスト データを取得して、包括的なテストおよび開発シナリオを簡単に開発できます。  

合成データのより実践的なアプリケーションを学びたいですか?お気軽に デモをスケジュールしてください!

あなたの 合成 データガイド

合成データとは何ですか?

システムを教えてください。

なぜ組織はそれを使用するのですか?

開始するには?

ニュースレターに登録する

合成データの最新ニュースを常にチェック