医療における合成データ: その変革的な役割、利点、課題

出版社:
2024 年 2 月 19 日

高品質のデータと厳格なプライバシー規制の欠如により、疾患の特定、医学的予測、臨床研究のための AI 分析の使用が妨げられる可能性があります。医療における合成データは、最小限のコストでこれらの課題に対処する効果的な方法を提供します。

合成データは、組織がプライバシーを損なうことなく実際のデータの類似物を使用できるようにすることで、医療イノベーションを可能にします。 ガートナーの予測 2024 年までに、組織が AI プラットフォームのトレーニングに使用するデータの 60% が合成データになると予想されており、これは 1 年の 2021% から大幅に増加します。

で、私たちのチーム シント 医療データ利用の限界と課題について紹介します。また、合成データセットを使用してこれらの課題を克服する方法についても説明します。

目次

現実世界の医療データを使用する際の主な課題

医療機関がデータを活用する 証拠に基づいた意思決定を行い、患者の転帰を向上させ、医学研究を実施します。しかし、企業は多くの場合、正確な予測を妨げるデータ不足と粒度の欠如に悩まされています。この課題は、プライバシー規制に対処するために導入された厳格なセキュリティ対策によってさらに悪化しています。

厳格なプライバシーとセキュリティ規制

医療データは、米国の HIPAA や EU の GDPR などの厳格な規制に従って収集、保存、共有する必要があります。これは、情報の特定が患者の生命に重大な影響を与える可能性がある、がんや心血管疾患や呼吸器疾患などの重篤な状態に関するデータの場合に特に重要です。 による 2023 年 IBM のデータ侵害のセキュリティー・コスト・レポート、医療データ侵害は、19.93 年連続で業界全体で最も高額な費用が発生しています。医療データ侵害の平均コストは、2023 年に 53.3 件あたり 2020 万ドルに達し、500 年から 3.31% 増加しました。小規模な医療機関 (従業員 XNUMX 人未満) でさえ、データ侵害 XNUMX 件あたり平均 XNUMX 万ドルの損失となります。 医療データを管理する厳しいプライバシーとセキュリティ規制にもかかわらず、課題はガイドラインの遵守を超えて広がっています。組織が規制を遵守していても、違反の頻度と重大性が増大することで、堅牢なセキュリティの必要性が強調されています。 匿名化 データの 患者情報を保護するための実践。

匿名化だけではデータのプライバシーは保証されません

しかしながら、 従来の匿名化されたデータは、大規模なデータセットでは不十分なことがよくあります。データ難読化などの技術 データマスキング技術 データ分析に必要な貴重な情報のほとんどが消去される可能性があります。これは、詳細な分析と調査のために詳細なデータに依存する研究者にとって課題です。

さらに、再識別のリスクは依然として存在します。研究によると、 最大 40 個の変数に対する健康記録の匿名化が侵害される可能性がある データセットに固有の特徴 (希少疾患や特定の薬剤など) が含まれている場合。

質の高い医療データが不足している

医療機関は患者の症状、診断、治療結果に関するデータが不足していることが多く、障害のない治療を行うという課題に直面しています。 データアクセス。この欠損により、研究に不可欠な臨床上のニュアンスを捉える能力が制限されます。

Gartner は、次のようなものの使用が増加すると予測しています。 生成AIで作成された合成データ (ヘルスケアにおいて およびその他の業界)、データの可用性のギャップを埋めるために。しかし、生成 AI モデルのトレーニングにはどのようなデータが使用されるのでしょうか?データ サイエンティストは最適な結果を達成するために高品質のトレーニング データを必要とするため、これは当然の質問です。

QA データセットは互換性がないか、低品質である可能性があります

健康データは、相互に互換性のない形式でさまざまなソースから取得される場合があります。組織は、構造化された電子医療記録 (EHR) と、ウェアラブル、サードパーティ ソフトウェア、および紙の記録からの非構造化データを組み合わせる必要があります。

人的エラーやシステムの不具合は、データ品質に影響を与え、データ分析の信頼性に影響を与え、 データユーティリティ。これは、誤った結論や誤った決定につながる可能性があります。

主な課題の概要を説明したので、次はその方法を解き明かしていきましょう。 合成医療データ それらに対処できます。

Gartner は、次のようなものの使用が増加すると予測しています。 生成AIで作成された合成データ (ヘルスケアにおいて およびその他の業界)、データの可用性のギャップを埋めるために。しかし、生成 AI モデルのトレーニングにはどのようなデータが使用されるのでしょうか?データ サイエンティストは最適な結果を達成するために高品質のトレーニング データを必要とするため、これは当然の質問です。

医療における合成データはどのように役立ちますか?

合成データ 統計モデルとアルゴリズムを使用して作成され、人工的に生成されたデータ ポイントです。 

このアルゴリズムは、現実世界のデータのすべてのパターンと関係を模倣し、合成データを作成します。

この データ生成モデル 実世界のデータのパターンを検出して学習し、実際のデータセットの合成データ ツインを生成します。これにより、その統計的特性は維持されますが、個人を特定できる情報 (PII) が置き換えられます。

人工物の役割、 AIが生成したヘルスケアデータ 医療革新に変革をもたらす可能性があります。合成データセットは実際のデータセットに代わるものを提供します 健康データ 品質の問題により使用できない場合、プライバシーの制約によりアクセスできない場合、および高品質のデータ分析には存在するデータが少なすぎる場合に使用できません。 機械学習モデル 訓練を受けた 合成データセット 機密情報を保護しながら革新的なソリューションの開発を支援します。実際、医療機関や関連ビジネスにさまざまなメリットをもたらします。 合成データのROI.

AI 生成合成データ

医療機関にとっての合成データの利点

合成データは医療提供者にとって大きな可能性を秘めています、大手製薬会社、ソフトウェア開発者。これらの利点は、プライバシーやコンプライアンスの利点から、コスト削減や研究の合理化まで多岐にわたります。

合成患者データによりプライバシーのリスクが軽減される

合成データにより医療機関は共有できるようになります 極秘データ PII を明らかにすることなく。その結果、データ侵害が発生した場合に機密情報が漏洩するリスクが軽減され、訴訟や規制上の罰金の可能性が制限されます。合成データセットのプライバシーに重点を置いたおかげで、Syntho は 2023 年に台頭する生成 AI ヘルスケア関連スタートアップ.

プライバシーを維持する例としては、合成データセットが患者の来院日をどのように処理するかが挙げられます。訪問日は、特定の個人に関連付けられる情報です。守ること 患者データ ML モデルはプライバシーとプライバシーを考慮して、人工的な訪問日を作成しますが、実際の訪問のパターン (訪問回数や訪問間の時間の長さなど) を確実に保持します。

データの合成により時間とリソースが節約されます

AIが生成した合成データ プラットフォームは、医療データにアクセスするための官僚的な負担と費用を排除します。考慮すべき契約条件や実装するガバナンス プロセスが少なくなります。これにより、医療提供者と臨床研究機関の時間が節約され、コストが削減されます。また、高品質のデータに迅速にアクセスできない企業と比べて、競争上の優位性も得られます。

高度なプラットフォームは、コンプライアンスやプライバシーの侵害からユーザーを保護するデータを作成します。完全一致の同一一致率 (IMR)、類似一致の最近接レコードまでの距離 (DCR)、外れ値の一致の最近傍距離比 (NNDR) などの重要な指標のプライバシーを自動的に評価します。データを扱う際のコンプライアンスとプライバシーのリスクが軽減されます。

Syntho の AI データ生成ソリューションが 2023 年グローバル SAS ハッカソンで優勝 ヘルスケアとライフサイエンスの博士号を取得。業界の専門家は、当社のプラットフォームが病院に提供できる能力を認めました。 高品質の合成データ 妥協することなく研究、分析、イノベーションを実現するために 患者データ とプライバシー。 カリフォルニアの大手病院は当社の人工データ生成を使用しています 臨床試験を含む研究を推進するためのプラットフォーム。

合成データはデータ アクセスのギャップを埋めることができます

合成データは、実際のデータが不足していて制限されている場合、またはデータに問題がある場合に役立ちます。 データアクセス。さらに、このデータは実際のデータの重要な特徴とパターンを保持しており、 元のデータの統計的特性~の専門家にとって非常に貴重であることが証明されています ヘルスケア研究データセンター.

たとえば、米国の製薬会社が管理する臨床試験に EU のがん患者が登録されている場合、外国の医療機関からデータを入手しようとすると法的な障害に遭遇する可能性があります。生成 AI プラットフォームは、面倒な作業をせずに必要なデータセットを取得するのに役立ちます。私たちのパートナー、 LifeLines は、AI データ生成ソリューションを使用して、医療研究用の合成データを提供します。

AI 機械学習アルゴリズムは、人工医療データをトレーニングできます。 私たちの調査では、合成データを使用して ML モデルをトレーニングできることが確認されました コスト効率よく。比較により、現実世界のデータでトレーニングされたモデルと同等の予測機能が示されます。合成データにより、予測精度も向上します。 データ共有。たとえば、2 つの病院のデータでトレーニングされたモデルは、1 つの病院のみのデータでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

合成データにより希少疾患の研究が促進される

合成データは、研究者が集団の健康状態や病気の状態を研究するのに役立ちます。多様なデータ サンプリングにより、実際の患者データを大量に取得することが困難または不可能なシナリオでのテストの機会が広がります。

エラスムス MC、大学医療センター、 合成データ生成プラットフォームを活用 使用する 合成患者EMRデータ 高度な分析のために。彼らは、私たちのデータセットが実際のデータの統計的特性を反映しており、個人を特定できる情報を一切開示していないことを強調しています。

これは、人工データが常に安全に使用できることを意味するものではありません。 すべてが合成データではない 価値があるようです。階層データの合成における課題、データの偏り、バランスの問題など、技術的な制限に遭遇する可能性があります。その上で、ステークホルダーは細心の注意を払う必要があります。 合成データの有効性を調べる 特定のユースケースごとに何が重要かを優先し、期待を効果的に管理します。 合成データを生成する

幸いなことに、私たちはこれらの課題に対処する方法を知っています。 Syntho の合成データ エンジンはすべての構造化データ タイプに対応します オンプレミスのインフラストラクチャやプライベート クラウドに簡単に導入できます。 医療におけるユースケースのデータ生成を支援します およびその他の事業。

たとえば、私たちは 合成データには SAS Viya 分析プラットフォームを使用しました それを確立するために 総合された健康データ ミラー 相関関係、モデルのパフォーマンス、変数の重要性に関する実際のデータの品質。曲線下面積 (AUC) スコアにより、複数の病院からのデータを合成する際の予測精度が 0.74 から 0.78 に向上しました (初期システムの結果と比較)。

医療分析のための Synth 合成データのイノベーション

合成データの生成 は、ヘルスケア分析システムの変革をもたらします。それ データアクセスのギャップを埋める, 病気検出アルゴリズムを改善する、そして有効にします データ駆動型の医学研究。さらに、合成データのアプローチにより、コンプライアンスとプライバシーの課題が大幅に軽減されます。

ヘルスケア データは、ほとんどの業界のデータよりも複雑で時間に敏感です。だからこそ、組織は評判が高く信頼できる企業と協力する必要があります。 ヘルスケアデータプラットフォーム プロバイダー。信頼できる技術パートナーがいれば、その可能性はほぼ無限大です。 Syntho は、Syntho エンジンを備え、AI によって生成された合成データ フィールドの最前線に立っています。私たちは、現在の技術的課題に対処し、医療データ分析における新しい画期的なアプリケーションを探索することに重点を置いています。

もっと詳しく知りたいですか?詳細については、ダウンロードして調べてください。 ヘルスケアレポート or イントロコールをスケジュールする.

Synthoについて

シント スマートを提供します 合成データの生成 プラットフォーム、活用 複数の合成データ形式 と生成方法により、組織がデータをインテリジェントに競争力に変換できるようになります。当社の AI 生成の合成データは、元のデータの統計パターンを模倣し、SAS などの外部専門家による評価どおり、正確さ、プライバシー、速度を保証します。スマートな匿名化機能と一貫したマッピングにより、参照整合性を維持しながら機密情報が保護されます。当社のプラットフォームは、ルールベースを利用して、非実稼働環境のテストデータの作成、管理、制御を可能にします。 合成データ生成方法 ターゲットを絞ったシナリオ向け。さらに、ユーザーは次のことができます。 合成データをプログラムで生成する そして得る 現実的なテストデータ 包括的なテストおよび開発シナリオを簡単に開発できます。

著者,

CEO兼創設者

Syntho は、AI が生成した合成データでデータ業界を破壊するスケールアップです。 Wim Kees は、プライバシーに関わるデータのロックを解除して、データをよりスマートかつ迅速に利用できるようになり、組織がデータ主導型のイノベーションを実現できることを Syntho で証明しました。その結果、Wim Kees と Syntho は名誉あるフィリップス イノベーション アワードを受賞し、ヘルスケアとライフ サイエンスにおける SAS グローバル ハッカソンで優勝し、NVIDIA によって生成 AI スケールアップのリーダーに選ばれました。

シンセガイドカバー

合成データガイドを今すぐ保存してください!