すべての投稿を見る

合成データ生成のガイド: 定義、タイプ、およびアプリケーション

記事の著者
ウィム・キース・ヤンセン
ウィム・キース・ヤンセン CEO & 創設者​
目次

企業が高品質なデータの取得と共有に課題を抱えていることは周知の事実です。合成データ生成は、プライバシーリスクや煩雑な手続きなしに、大規模な人工データセットと高品質なテストデータを生成するのに役立つ実用的なソリューションです。

合成データセットはさまざまな方法を使用して作成でき、さまざまなアプリケーションが提供されます。適切に評価されると、高度なアルゴリズムを使用して生成された合成データセットは、組織の分析、調査、テストのスピードアップに役立ちます。それでは、詳しく見てみましょう。

この記事では、主な種類、匿名化されたデータセットとの違い、規制上のニュアンスなど、合成データについて紹介します。人工的に生成されたデータが重要なデータ問題を解決し、特定のリスクを最小限に抑える方法を学びます。また、ケーススタディの例を交えながら、業界全体でのアプリケーションについても説明します。

Synthoガイド

合成データ生成のガイド

合成データ: 定義と市場統計

合成データは、機密コンテンツを含まない人工的に生成された情報であり、実際のデータセットの代替として機能します。データサイエンティストは、合成データを次のように呼ぶことが多いです。 AIが生成した合成データ 実際のデータを模倣する統計的精度が高いため、合成データ ツインと呼ばれます。

人工データセットは、元のデータのパターンと相関関係を維持する人工知能 (AI) アルゴリズムとシミュレーションを使用して作成されます。このデータには、テキスト、表、画像が含まれます。アルゴリズムは、個人を特定できる情報 (PII) を模擬データに置き換えます。

合成データ プラットフォーム Syntho とすべてのソリューションの最終版 1

グランドビューリサーチの予測 ガートナーによると、ジェネレーティブAIによる合成データ生成の市場は、1.63年の2022億13.5万ドルから2030年までに年平均成長率35%でXNUMX億ドルに成長すると予測されています。 60 年に AI に使用されるデータの 2024% は合成データになる これは 60 年の 2021 倍に相当します。合成データ プラットフォームも増加しています。 ステートビルが期待する市場 世界の合成データ プラットフォーム市場は、218 年の 2022 億 3.7 万ドルから 2033 年までに XNUMX 億ドルに成長すると予測されています。人工データが増加している理由は何でしょうか。その原動力の XNUMX つは、規制監督からの自由です。

プライバシー法は AI によって生成された合成データを規制しますか?

米国とEUのデータセキュリティとプライバシーに関する規制の多くは、識別可能な個人データに適用されます。しかし、これらの規制は合成データには適用されません。合成データは匿名データと同様に扱われます。合成データは、他の法的規則のいわゆる「中核」を形成します。たとえば、 GDPR 発表会 26 プライバシー保護規則は、識別可能な個人に関連するデータにのみ適用されると規定されています。識別可能な個人にまで遡ることができないような方法で合成データが生成された場合は、規制監督の対象外となります。規制監督とは別に、実際のデータの使用を妨げる他の障害もあり、企業に合成データの生成を強いています。

実際のデータを使用する際の主な課題

多くの企業は、特に AI アルゴリズムのトレーニングに十分な量の、関連性のある高品質のデータを見つけて使用するのに苦労しています。たとえデータを見つけたとしても、プライバシーのリスクや互換性の問題により、データセットを共有したり利用したりすることが困難な場合があります。このセクションでは、合成データが解決できる主な課題について説明します。

プライバシーリスクはデータの使用と共有を妨げます

GDPR や HIPAA などのデータ セキュリティとプライバシーの規制により、データの共有と利用に官僚的な障害が生じます。ヘルスケアなどの業界では、ガバナンスチェックのため、同じ組織内の部門間で PII を共有するだけでも時間がかかる場合があります。外部エンティティとデータを共有することはさらに困難であり、より多くのセキュリティ リスクが伴います。

からの研究 フォーチュンビジネスインサイト は、プライバシー リスクの増大が、合成データの実践を採用する主なきっかけであると特定しています。保存するデータが増えるほど、プライバシーが侵害されるリスクが高くなります。によると 2023 年 IBM のデータ侵害のセキュリティー・コスト・レポート、米国におけるデータ侵害の平均コストは9.48万ドルでした。全世界の平均コストは 4.45 万ドルでした。従業員が 500 人未満の企業は、侵害 3.31 件につき XNUMX 万ドルの損失を被ります。そして、それは風評被害を説明するものではありません。

高品質のデータを見つけるのが難しい

2022調査 500人のデータ専門家を対象とした調査では、エンジニア、アナリスト、データサイエンティストの77%がデータ品質の問題に直面していることが明らかになりました。レポートによると、データ品質は企業の財務実績と生産性を妨げ、サービスの全体像を達成することをほとんど不可能にします。企業には、機械学習(ML)モデルを適切にトレーニングするための特定の人口統計からのデータが不足している場合があります。また、データセットには矛盾、不正確さ、欠損値が含まれることがよくあります。人口統計の多様性に欠ける低品質のデータで機械学習モデルを使用してAIプラットフォームをトレーニングすると、不正確で偏った予測を行うことになります。同様に、匿名化されたデータ生成と同様に、未精製のアルゴリズムは、データ分析の結果に影響を与える信頼性の低い人工データセットを生成する可能性があります。合成データによるアップサンプリングは、データセットの不均衡に対処することでデータ品質を向上させることができます。これにより、過小評価されたクラスがより比例代表されるようになり、偏りが軽減されます。より堅牢で代表的なデータセットにより、分析結果とモデルトレーニングが向上します。

データセットの非互換性

さまざまな起源のデータセットや複数テーブル データベース内のデータセットによって非互換性が生じ、データの処理と分析が複雑になり、イノベーションが妨げられる可能性があります。

たとえば、ヘルスケアにおけるデータ集約には、電子健康記録 (EHR)、ウェアラブル、独自ソフトウェア、サードパーティ ツールが関係します。各ソースは異なるデータ形式と情報システムを利用する場合があり、統合時にデータ形式、構造、単位に差異が生じます。合成データを使用すると、この課題に対処でき、互換性を確保し、必要な形式でデータを生成できます。

匿名化が不十分

匿名化技術だけでは、プライバシーのリスクやデータ品質の問題を克服するには十分ではありません。さらに、 識別子のマスキングまたは削除により、詳細な分析に必要な詳細が削除される可能性があります 大規模なデータセットでは、匿名化されたデータは再識別され、個人にまで遡ることができます。悪意のある行為者は、高度な分析を使用して、一見匿名化されたデータの匿名性を損なう時間ベースのパターンを発見することができます。その点では、合成データは匿名化されたデータよりも優れています。匿名化とは異なり、合成データは既存のデータセットを変更せず、生データの特性と構造に似た新しいデータを生成し、その有用性を維持します。これは、個人を特定できる情報を含まないまったく新しいデータセットです。しかし、それだけではありません。合成データの生成方法にはいくつかの種類があります。

合成データ生成の種類

合成データの作成プロセスは、必要なデータの種類によって異なります。合成データのタイプには、完全に AI で生成されたデータ、ルールベースのデータ、模擬データなどがあり、それぞれ異なるニーズを満たします。

完全に AI によって生成された合成データ

このタイプの合成データ ML アルゴリズムを使用してゼロから構築されます。機械学習モデルは実際のデータでトレーニングして、データの構造、パターン、関係性を学習します。次に、Generative AI はこの知識を使用して、元のデータの統計特性に非常によく似た新しいデータを生成します (この場合も、識別は不可能です)。

このタイプの完全に合成されたデータは、AI モデルのトレーニングに役立ち、実際のデータのように使用できるほど優れています。契約上のプライバシー契約によりデータセットを共有できない場合に特に便利です。ただし、合成データを生成するには、機械学習モデルのトレーニングの開始点として大量のオリジナルデータが必要です。

合成エンジン合成データ生成

合成モックデータ

この合成データは タイプとは、実際のデータの構造と形式を模倣した人工的に作成されたデータを指しますが、必ずしも実際の情報を反映しているわけではありません。これにより、開発者は、本物のデータ、プライベートなデータ、機密データを使用せずに、そして最も重要なことに、実際のデータに依存せずに、アプリケーションがさまざまな入力とシナリオを処理できることを確認できます。このプラクティスは、制御された安全な方法で機能をテストし、ソフトウェア アプリケーションを改良するために不可欠です。

いつ使用するか: 直接識別子 (PII) を置き換える場合、または現在データが不足しており、ルールの定義に時間と労力を費やしたくない場合。開発者は通常、モック データを使用して開発の初期段階でアプリケーションの機能と外観を評価し、潜在的な問題や設計上の欠陥を特定できるようにします。 

モックデータには実世界の情報の信頼性が欠けていますが、実際のデータ統合前にシステムの適切な機能と視覚的表現を確保するための貴重なツールとして残ります。 

注: 合成された模擬データは「偽データ」と呼ばれることがよくありますが、意味合いが異なる可能性があるため、これらの用語を互換的に使用することはお勧めしません。 

ルールベースの合成データ

ルールベースの合成データ は、定義済みのルール、制約、ロジックに基づいてカスタマイズされたデータセットを生成するための便利なツールです。この方法では、最小値、最大値、平均値などのパラメータを調整して、ユーザーが特定のビジネス ニーズに応じてデータ出力を構成できるため、柔軟性が高まります。完全に AI で生成されたデータにはカスタマイズ機能がありませんが、ルールベースの合成データは、個別の運用要件を満たすカスタマイズされたソリューションを提供します。この合成データ生成プロセスは、正確で制御されたデータ生成が不可欠なテスト、開発、分析で特に役立ちます。

合成データ生成方法にはそれぞれ異なる用途があります。Syntho のプラットフォームは、ユーザー側の手間をほとんどかけずに合成データ ツインを作成できるという点で優れています。コンプライアンスのオーバーヘッドなしで、ニーズに合った統計的に正確で高品質の合成データを取得できます。

表形式の合成データ

表形式の合成データという用語は、テーブルやスプレッドシートに保存されたデータなど、実際の表形式のデータの構造と統計特性を模倣した人工的なデータ サブセットを作成することを指します。この合成データは、機密データやセンシティブなデータが漏洩しないようにしながらソース データの特性を再現するように設計された合成データ生成アルゴリズムと手法を使用して作成されます。

表形式の合成データを生成する手法には、通常、統計モデリング、機械学習モデル、または生成的敵対ネットワーク (GAN) や変分オートエンコーダー (VAE) などの生成モデルが含まれます。これらの合成データ生成ツールは、実際のデータセットに存在するパターン、分布、相関関係を分析し、実際のデータに非常に似ているが実際の情報は含まれていない新しいデータ ポイントを生成します。

表形式の合成データの一般的な使用例には、プライバシーに関する懸念への対処、データの可用性の向上、データ駆動型アプリケーションの研究とイノベーションの促進などがあります。ただし、下流のタスクでデータの有用性と有効性を維持するには、合成データが元のデータの基礎となるパターンと分布を正確に捉えていることを確認することが重要です。

人工的に生成されたデータは、医療、小売、製造、金融などの業界にイノベーションの可能性をもたらします。主な使用例には、データのアップサンプリング、分析、テスト、共有などがあります。

データセットを強化するためのアップサンプリング

アップサンプリングとは、スケーリングと多様化のために小さなデータセットから大きなデータセットを生成することを意味します。この方法は、実際のデータが不足している、不均衡である、または不完全である場合に適用されます。

いくつかの例を考えてみましょう。金融機関の場合、開発者は金融データ内のまれな観察や活動パターンをアップサンプリングすることで、不正検出モデルの精度を向上させることができます。同様に、マーケティング代理店は、過小評価されているグループに関連するデータをアップサンプリングして増強し、セグメンテーションの精度を高めることができます。

AI 生成データによる高度な分析

企業は、AI によって生成された高品質の合成データをデータ モデリング、ビジネス分析、臨床研究に活用できます。実際のデータセットを取得するには費用がかかりすぎたり、時間がかかりすぎたりする場合に、データの合成は実行可能な代替手段となります。

合成データにより、研究者は患者の機密性を損なうことなく詳細な分析を実施できます。データ サイエンティストや研究者は、患者データ、臨床状態に関する情報、治療の詳細にアクセスして、実際のデータでは大幅に時間がかかるであろう洞察を得ることができます。さらに、メーカーは、操作された GPS や位置データを組み込んでパフォーマンス テスト用のアルゴリズムを作成したり、予測メンテナンスを強化したりすることで、サプライヤーとデータを自由に共有できます。

しかし、合成データの評価は重要です。Syntho Engineの出力は社内の品質保証チームによって検証され、 SAS Instituteの外部専門家予測モデリングの研究では、実際のデータ、匿名化されたデータ、合成データで 4 つの機械学習モデルをトレーニングしました。結果は、合成データセットでトレーニングされたモデルは実際のデータセットでトレーニングされたモデルと同レベルの精度を示しましたが、匿名化されたデータはモデルの有用性が低下しました。

外部および内部のデータ共有

合成データにより、組織内および組織間でのデータ共有が簡素化されます。合成データを使用すると、プライバシー侵害や規制違反のリスクを冒すことなく情報を交換できます。合成データの利点には、研究成果の迅速化やコラボレーションの効率化などがあります。

小売企業は、顧客の行動、在庫レベル、その他の主要な指標を反映する合成データを使用して、サプライヤーや販売業者と洞察を共有できます。ただし、最高レベルのデータ プライバシーを確​​保するため、機密性の高い顧客データや企業秘密は機密扱いされます。

Syntho が 2023 年グローバル SAS ハッカソンで優勝 正確な合成データを効果的かつリスクなく生成し共有する能力に対して。私たちは、予測モデルの有効性を実証するために、異なる患者集団を持つ複数の病院の患者データを合成しました。合成データセットを組み合わせて使用​​した場合、実際のデータを使用した場合と同等の精度であることが示されました。

合成テストデータ

合成テスト データは、ソフトウェア開発のデータ テスト環境をシミュレートするために人工的に生成されたデータです。合成テスト データを使用すると、プライバシー リスクが軽減されるだけでなく、開発者は実際のシステムに影響を与えることなく、さまざまなシナリオにわたってアプリケーションのパフォーマンス、セキュリティ、機能を厳密に評価できます。

オランダ最大手の銀行との提携 ソフトウェア テストにおける合成データの利点を紹介します。Syntho Engine を使用したテスト データ生成により、実稼働に近いデータセットが生成され、銀行のソフトウェア開発とバグ検出がスピードアップし、より迅速かつ安全なソフトウェア リリースが実現しました。

表形式の合成データを生成する手法には、通常、統計モデリング、機械学習モデル、または生成的敵対ネットワーク (GAN) や変分オートエンコーダー (VAE) などの生成モデルが含まれます。これらの合成データ生成ツールは、実際のデータセットに存在するパターン、分布、相関関係を分析し、実際のデータに非常に似ているが実際の情報は含まれていない新しいデータ ポイントを生成します。

表形式の合成データの一般的な使用例には、プライバシーに関する懸念への対処、データの可用性の向上、データ駆動型アプリケーションの研究とイノベーションの促進などがあります。ただし、下流のタスクでデータの有用性と有効性を維持するには、合成データが元のデータの基礎となるパターンと分布を正確に捉えていることを確認することが重要です。

Syntho の合成データ生成プラットフォーム

Syntho は、スマートな合成データ生成プラットフォームを提供し、組織がデータをインテリジェントに変換して競争力を高めることができるようにします。 Syntho は、すべての合成データ生成方法を 1 つのプラットフォームに提供することで、データの活用を目指す組織に次のような包括的なソリューションを提供します。

当社のプラットフォームは、あらゆるクラウドまたはオンプレミス環境に統合されます。さらに、企画・導入も当社が担当いたします。私たちのチームが従業員に使い方をトレーニングします。 Synthoエンジン 導入後も継続的なサポートを提供します。

Synthoの合成データ生成プラットフォームの機能の詳細については、 当社ウェブサイトのソリューションセクション.

合成データの将来はどうなるでしょうか?

生成 AI による合成データ生成は、形式の互換性の問題、規制上の制約、データ侵害のリスクを回避し、大量の関連データを作成して共有するのに役立ちます。

匿名化とは異なり、合成データを生成すると、データ内の構造的な関係性を保持できます。これにより、合成データは高度な分析、研究開発、多様化、テストに適しています。

合成データセットの使用は、業界を超えて拡大する一方です。企業は合成データを作成し、その範囲を複雑な画像、音声、動画コンテンツにまで拡大する態勢を整えています。企業は機械学習モデルの使用を、より高度なシミュレーションやアプリケーションにまで拡大するでしょう。

合成データのより実用的な応用についてもっと知りたいですか?お気軽に 当社のウェブサイトでデモをスケジュールする.

Synthoについて

シント は、複数の合成データ形式と生成方法を活用したスマートな合成データ生成プラットフォームを提供し、組織がデータをインテリジェントに変換して競争上の優位性を獲得できるようにします。当社の AI 生成合成データは、元のデータの統計パターンを模倣し、SAS などの外部専門家による評価で、正確性、プライバシー、速度を保証します。スマートな匿名化機能と一貫したマッピングにより、機密情報は保護され、参照整合性が維持されます。当社のプラットフォームでは、ルールベースの合成データ生成方法を使用して対象シナリオに合わせ、非本番環境のテスト データの作成、管理、制御が可能です。さらに、ユーザーはプログラムで合成データを生成し、現実的なテスト データを取得して、包括的なテストおよび開発シナリオを簡単に開発できます。

あなたの 合成 データガイド

合成データとは何ですか?

システムを教えてください。

なぜ組織はそれを使用するのですか?

開始するには?

ニュースレターに登録する

合成データの最新ニュースを常にチェック