合成データ生成のガイド: 定義、タイプ、およびアプリケーション

企業が高品質のデータの取得と共有において課題に直面していることは周知の事実です。 合成データの生成 は、プライバシーのリスクや煩雑な作業を行わずに、大規模な人工データセットと高品質のテスト データを生成するのに役立つ実用的なソリューションです。

合成データセットはさまざまな方法を使用して作成でき、さまざまなアプリケーションが提供されます。適切に評価されると、高度なアルゴリズムを使用して生成された合成データセットは、組織の分析、調査、テストのスピードアップに役立ちます。それでは、詳しく見てみましょう。

この記事では、主な種類、匿名化されたデータセットとの違い、規制上のニュアンスなど、合成データについて紹介します。人工的に生成されたデータが重要なデータ問題を解決し、特定のリスクを最小限に抑える方法を学びます。また、ケーススタディの例を交えながら、業界全体でのアプリケーションについても説明します。

目次

合成データ: 定義と市場統計

合成データ は、機密コンテンツを含まない人工的に生成された情報であり、実際のデータセットの代替として機能します。データサイエンティストはよく電話をかけます。 AIが生成した合成データ 実際のデータを模倣する統計的精度が高いため、合成データ ツインと呼ばれます。

人工データセットは、元のデータのパターンと相関関係を維持する人工知能 (AI) アルゴリズムとシミュレーションを使用して作成されます。このデータには、テキスト、表、画像を含めることができます。このアルゴリズムは、個人を特定できる情報 (PII) を モックデータ.

合成データ プラットフォーム Syntho とすべてのソリューションのグラフ

グランドビューリサーチの予測 の市場 Generative AI による合成データの生成 1.63 年の 2022 億 13.5 万ドルから、2030 年までに 35% の CAGR で約 XNUMX 億ドルに成長すると予想されます。ガートナーによれば、 60 年に AI に使用されるデータの 2024% は合成データになる —それは60年と比べて2021倍です。

合成データ プラットフォームも増加しています。 ステートビルが期待する市場 世界の合成データ プラットフォーム市場は、218 年の 2022 億 3.7 万ドルから 2033 年までに XNUMX 億ドルに成長すると予想されています。

なぜ人工データが増加しているのでしょうか?推進要因の 1 つは、規制の監視から自由であることです。

プライバシー法は AI によって生成された合成データを規制しますか?

米国とEUの多くは データのセキュリティとプライバシー 特定可能な個人データには規制が適用されます。 

しかし、これらの規制は次の場合には適用されません 合成データ — 合成データは次と同様に扱われます。 匿名化されたデータ。 これらは、他の法的規則のいわゆる「核心」を形成します。

たとえば、 GDPR 発表会 26 プライバシー保護ルールは、特定可能な個人に関連するデータにのみ適用されると述べています。合成データが個人を特定できないように生成された場合、そのデータは規制の監視から免除されます。 規制の監視はさておき、実際のデータの使用には、企業が合成データを生成するよう促す他の障害もあります。

実際のデータを使用する際の主な課題

多くの企業は、関連性の高い高品質のデータ、特に AI アルゴリズムのトレーニングに十分な量のデータを見つけて使用するのに苦労しています。たとえデータセットを見つけたとしても、プライバシーのリスクや互換性の問題により、データセットの共有や利用が困難になる場合があります。このセクションではキーの概要を説明します 合成データへの挑戦 解決できます。

プライバシーリスクはデータの使用と共有を妨げます

GDPR や HIPAA などのデータ セキュリティとプライバシーの規制により、データの共有と利用に官僚的な障害が生じます。ヘルスケアなどの業界では、ガバナンスチェックのため、同じ組織内の部門間で PII を共有するだけでも時間がかかる場合があります。外部エンティティとデータを共有することはさらに困難であり、より多くのセキュリティ リスクが伴います。

からの研究 フォーチュンビジネスインサイト は、プライバシー リスクの増大が、合成データの実践を採用する主なきっかけであると特定しています。保存するデータが増えるほど、プライバシーが侵害されるリスクが高くなります。によると 2023 年 IBM のデータ侵害のセキュリティー・コスト・レポート、米国におけるデータ侵害の平均コストは9.48万ドルでした。全世界の平均コストは 4.45 万ドルでした。従業員が 500 人未満の企業は、侵害 3.31 件につき XNUMX 万ドルの損失を被ります。そして、それは風評被害を説明するものではありません。

高品質のデータを見つけるのが難しい

2022調査 データ専門家 500 人のうち、エンジニア、アナリスト、データ サイエンティストの 77% がデータ品質の問題に直面していることが明らかになりました。レポートによると、データ品質は企業の財務実績と生産性を妨げ、サービスの全体像を把握することを困難にしています。

企業には、機械学習 (ML) モデルを適切にトレーニングするために、特定の層からの十分なデータが不足している可能性があります。また、データセットには矛盾、不正確さ、欠損値が含まれることがよくあります。 AI プラットフォームをトレーニングする場合、 機械学習モデル 人口統計上の多様性に欠ける低品質のデータでは、不正確で偏った予測が行われてしまいます。同様に、匿名化されたデータ生成と同様に、洗練されていないアルゴリズムは、データ分析の結果に影響を与える信頼性の低い人工データセットを生成する可能性があります。

合成データを使用したアップサンプリングは、データセットの不均衡に対処することでデータ品質を向上させることができます。これにより、過小評価されたクラスがより多くの比例代表を獲得し、バイアスが軽減されます。より堅牢で代表的なデータセットにより、分析結果とモデル トレーニングが向上します。

データセットの非互換性

さまざまな起源のデータセットや複数テーブル データベース内のデータセットによって非互換性が生じ、データの処理と分析が複雑になり、イノベーションが妨げられる可能性があります。

たとえば、医療におけるデータの集約には、電子医療記録 (EHR)、ウェアラブル、独自のソフトウェア、サードパーティのツールが含まれます。各ソースは異なるデータ形式と情報システムを利用する場合があり、統合中にデータ形式、構造、または単位に差異が生じることがあります。合成データを使用すると、この課題に対処でき、互換性が確保され、 データを生成する 希望の形式で。

匿名化が不十分

匿名化技術だけでは、プライバシーのリスクやデータ品質の問題を克服するには十分ではありません。さらに、 識別子のマスキングまたは削除により、詳細な分析に必要な詳細が削除される可能性があります 大規模なデータセットで。

さらに、匿名化されたデータは再識別され、個人を追跡することができます。悪意のある攻撃者は、高度な分析を使用して、匿名化されたように見えるデータの匿名性を損なう時間ベースのパターンを明らかにする可能性があります。この点において、合成データは匿名化されたデータよりも優れています。

取消 匿名化、合成データ 既存のデータセットは変更されませんが、データセットの特性と構造に似た新しいデータが生成されます。 生データ、その実用性を維持します。これは、個人を特定できる情報を含まないまったく新しいデータセットです。

しかし、それはそれよりも微妙です。いくつかの種類がありますが、 合成データ生成方法.

合成データ生成の種類

合成データ作成 プロセスは、必要なデータの種類によって異なります。合成データ タイプには、完全に AI で生成されたデータ、ルールベースのデータ、モック データが含まれており、それぞれが異なるニーズに対応します。

完全に AI によって生成された合成データ

このタイプの 合成データ ML アルゴリズムを使用してゼロから構築されます。の 機械学習モデル 電車で 実際のデータ データの構造、パターン、関係について学びます。次に、生成 AI はこの知識を使用して、元のデータの統計的特性によく似た新しいデータを生成します (これも識別不可能ですが)。

このタイプの 完全に合成されたデータ AI モデルのトレーニングに役立ち、実際のデータであるかのように使用するのに十分です。これは、契約上のプライバシー契約によりデータセットを共有できない場合に特に有益です。ただし、合成データを生成するには、出発点として大量の元のデータが必要です。 機械学習モデル トレーニング。

合成モックデータ

この 合成データ タイプとは、実際のデータの構造と形式を模倣して人工的に作成されたデータを指しますが、必ずしも実際の情報を反映しているわけではありません。これにより、開発者は、正規の、プライベートな、または 極秘データ そして最も重要なことは、現実世界のデータに依存しないことです。この実践は、制御された安全な方法で機能をテストし、ソフトウェア アプリケーションを改良するために不可欠です。

いつ使用するか: 直接識別子 (PII) を置き換える場合、または現在データが不足しており、ルールの定義に時間と労力を費やしたくない場合。開発者は通常、モック データを使用して開発の初期段階でアプリケーションの機能と外観を評価し、潜在的な問題や設計上の欠陥を特定できるようにします。 

モックデータには実世界の情報の信頼性が欠けていますが、実際のデータ統合前にシステムの適切な機能と視覚的表現を確保するための貴重なツールとして残ります。 

注: 合成モックデータは、「」と呼ばれることがよくあります。偽のデータ、ただし、これらの用語は含意が異なる可能性があるため、同じ意味で使用することはお勧めしません。 

合成モックデータ

ルールベースの合成データ

ルールベースの合成データ は、事前定義されたルール、制約、ロジックに基づいてカスタマイズされたデータセットを生成するのに便利なツールです。この方法では、ユーザーが特定のビジネス ニーズに従ってデータ出力を構成し、最小値、最大値、平均値などのパラメーターを調整できるため、柔軟性が得られます。カスタマイズのない完全な AI 生成データとは対照的に、ルールベースの合成データは、個別の運用要件を満たすためのカスタマイズされたソリューションを提供します。これ 合成データ生成プロセス 正確で制御されたデータ生成が不可欠なテスト、開発、分析において特に有用であることが証明されています。

各合成データ生成方法にはさまざまな用途があります。 Syntho のプラットフォームは、ユーザー側でほとんど、またはまったく労力をかけずに合成データ ツインを作成するという点で際立っています。統計的に正確な結果が得られます。 高品質の合成データ コンプライアンスのオーバーヘッドなしでニーズに応えます。

表形式の合成データ

用語 表形式の合成データ を指します 人工的なデータを作成する 現実世界の構造と統計的特性を模倣するサブセット 表データテーブルやスプレッドシートに保存されたデータなど。これ 合成データ を使用して作成されます 合成データ生成アルゴリズム の特徴を再現するために設計された技術と、 ソースデータ 機密性を確保しながら、または 極秘データ は開示されていない。

生成するテクニック 表形式 合成データ 通常は統計モデリングが含まれます。 機械学習モデル、または敵対的生成ネットワーク (GAN) や変分オートエンコーダー (VAE) などの生成モデル。これら 合成データ生成ツール に存在するパターン、分布、相関関係を分析します。 実際のデータセット そして、新しいものを生成します データポイント それ 実際のデータによく似ている ただし、実際の情報は含まれていません。

典型的な表形式 合成データの使用例 これには、プライバシーの問題への対処、データの可用性の向上、データ駆動型アプリケーションの研究とイノベーションの促進が含まれます。ただし、次のことを確認することが重要です。 合成データ 元のデータの基礎となるパターンと分布を正確に捕捉し、維持します データユーティリティ 下流タスクの有効性。

ルールベースの合成データグラフ

最も人気のある合成データ アプリケーション

人工的に生成されたデータは、ヘルスケア、小売、製造、金融、その他の業界にイノベーションの可能性をもたらします。プライマリー ユースケース データのアップサンプリング、分析、テスト、共有が含まれます。

データセットを強化するためのアップサンプリング

アップサンプリングとは、スケーリングと多様化のために小さなデータセットから大きなデータセットを生成することを意味します。この方法は、実際のデータが不足している、不均衡である、または不完全である場合に適用されます。

いくつかの例を考えてみましょう。金融機関の場合、開発者は、まれな観察や活動パターンをアップサンプリングすることで、不正検出モデルの精度を向上させることができます。 財務データ。同様に、マーケティング代理店はアップサンプリングを行って、過小評価されているグループに関連するデータを増強し、セグメンテーションの精度を高めることができます。

AI 生成データによる高度な分析

企業は、AI によって生成された高品質の合成データをデータ モデリング、ビジネス分析、臨床研究に活用できます。 データの合成 実際のデータセットの取得に費用がかかりすぎる、または時間がかかりすぎる場合、実行可能な代替手段であることがわかります。

合成データ 研究者は患者の機密性を損なうことなく詳細な分析を行うことができます。 データサイエンティスト 研究者は患者データ、臨床状態に関する情報、治療の詳細にアクセスして、実際のデータを使用するとかなり時間がかかるであろう洞察を得ることができます。さらに、メーカーはサプライヤーと自由にデータを共有し、操作された GPS データや位置データを組み込んで、性能テスト用のアルゴリズムを作成したり、予知保全を強化したりできます。

しかしながら、 合成データの評価 重要です。 Syntho Engine の出力は社内の品質保証チームによって検証され、 SAS Instituteの外部専門家。予測モデリングの研究では、4 つのトレーニングを行いました。 機械学習モデル 実際の匿名化された合成データを対象としています。その結果、合成データセットでトレーニングしたモデルは、実際のデータセットでトレーニングしたモデルと同じレベルの精度がある一方で、匿名化されたデータによりモデルの有用性が低下することがわかりました。

外部および内部のデータ共有

合成データにより、組織内および組織間のデータ共有が簡素化されます。あなたはできる 合成データを使用する 〜へ プライバシー侵害や規制違反の危険を冒すことなく情報を交換できます。合成データの利点には、研究成果の加速やより効果的なコラボレーションが含まれます。

小売企業は、顧客の行動、在庫レベル、その他の重要な指標を反映する合成データを使用して、サプライヤーや流通業者と洞察を共有できます。ただし、最高レベルを保証するために、 データプライバシー、機密性の高い顧客データ、および企業秘密は機密として保管されます。

Syntho が 2023 年グローバル SAS ハッカソンで優勝 生成し共有する私たちの能力のために a正確な合成データ 効果的かつリスクなしで。私たちは、予測モデルの有効性を実証するために、異なる患者集団を持つ複数の病院の患者データを合成しました。結合された合成データセットの使用は、実際のデータを使用するのと同じくらい正確であることが示されました。

合成テストデータ

合成テストデータは、シミュレーションを目的として人工的に生成されたデータです。 データテスト ソフトウェア開発のための環境。プライバシー リスクを軽減するだけでなく、合成テスト データを使用すると、開発者は実際のシステムに影響を与えることなく、さまざまな潜在的なシナリオにわたってアプリケーションのパフォーマンス、セキュリティ、機能を厳密に評価できます。

オランダ最大手の銀行との提携 ショーケース 合成データの利点 ソフトウェアのテスト用。 テストデータの生成 Syntho Engine を使用した結果、本番環境と同様のデータセットが得られ、銀行のソフトウェア開発とバグ検出のスピードアップに役立ち、より迅速かつ安全なソフトウェア リリースにつながりました。

生成するテクニック 表形式 合成データ 通常は統計モデリングが含まれます。 機械学習モデル、または敵対的生成ネットワーク (GAN) や変分オートエンコーダー (VAE) などの生成モデル。これら 合成データ生成ツール に存在するパターン、分布、相関関係を分析します。 実際のデータセット そして、新しいものを生成します データポイント それ 実際のデータによく似ている ただし、実際の情報は含まれていません。

典型的な表形式 合成データの使用例 これには、プライバシーの問題への対処、データの可用性の向上、データ駆動型アプリケーションの研究とイノベーションの促進が含まれます。ただし、次のことを確認することが重要です。 合成データ 元のデータの基礎となるパターンと分布を正確に捕捉し、維持します データユーティリティ 下流タスクの有効性。

Syntho の合成データ生成プラットフォーム

Syntho は、スマートな合成データ生成プラットフォームを提供し、組織がデータをインテリジェントに変換して競争力を高めることができるようにします。 Syntho は、すべての合成データ生成方法を 1 つのプラットフォームに提供することで、データの活用を目指す組織に次のような包括的なソリューションを提供します。

  • AIが生成した合成データ 人工知能の力を利用して、元のデータの統計パターンを合成データで模倣します。
  • スマートな匿名化 守ること 極秘データ 個人を特定できる情報 (PII) を削除または変更することによって。
  • Test data management それは 非運用環境の代表的なテスト データの作成、保守、および制御。

当社のプラットフォームは、あらゆるクラウドまたはオンプレミス環境に統合されます。さらに、企画・導入も当社が担当いたします。私たちのチームが従業員に使い方をトレーニングします。 Synthoエンジン 導入後も継続的なサポートを提供します。

Syntho の機能について詳しくは、こちらをご覧ください。 合成データ の発電プラットフォーム 当社ウェブサイトのソリューションセクション.

合成データの将来はどうなるでしょうか?

生成AIによる合成データ生成 大量のコンテンツの作成と共有に役立ちます 関連データ、形式の互換性の問題、規制上の制約、データ侵害のリスクを回避します。

匿名化とは異なり、 合成データの生成 データ内の構造的な関係を維持できます。これにより、合成データは高度な分析、研究開発、多様化、テストに適したものになります。

合成データセットの使用は、業界全体に拡大するだけです。企業は次のような準備を整えています 合成データを作成し、 その範囲は、複雑な画像、音声、ビデオ コンテンツにまで拡張されます。企業は、 機械学習モデル より高度なシミュレーションと .

より実践的なアプリケーションを学びたいですか? 合成データ?お気軽に デモをスケジュールする 当社のウェブサイト.

Synthoについて

シント スマートを提供します 合成データの生成 プラットフォーム、活用 複数の合成データ形式 と生成方法により、組織がデータをインテリジェントに競争力に変換できるようになります。当社の AI 生成の合成データは、元のデータの統計パターンを模倣し、SAS などの外部専門家による評価どおり、正確さ、プライバシー、速度を保証します。スマートな匿名化機能と一貫したマッピングにより、参照整合性を維持しながら機密情報が保護されます。当社のプラットフォームは、ルールベースを利用して、非実稼働環境のテストデータの作成、管理、制御を可能にします。 合成データ生成方法 ターゲットを絞ったシナリオ向け。さらに、ユーザーは次のことができます。 合成データをプログラムで生成する そして得る 現実的なテストデータ 包括的なテストおよび開発シナリオを簡単に開発できます。

著者,

Syntho の CEO 兼共同創設者である Wim Kees Jannsen の顔写真

ウィム・キース・ヤンセン

CEO兼創設者

Syntho は、AI が生成した合成データでデータ業界を破壊するスケールアップです。 Wim Kees は、プライバシーに関わるデータのロックを解除して、データをよりスマートかつ迅速に利用できるようになり、組織がデータ主導型のイノベーションを実現できることを Syntho で証明しました。その結果、Wim Kees と Syntho は名誉あるフィリップス イノベーション アワードを受賞し、ヘルスケアとライフ サイエンスにおける SAS グローバル ハッカソンで優勝し、NVIDIA によって生成 AI スケールアップのリーダーに選ばれました。

公開済み
2024 年 2 月 19 日