記事の著者

高品質のデータと厳格なプライバシー規制の欠如により、疾患の特定、医学的予測、臨床研究のための AI 分析の使用が妨げられる可能性があります。医療における合成データは、最小限のコストでこれらの課題に対処する効果的な方法を提供します。
合成データは、組織がプライバシーを損なうことなく実際のデータの類似物を使用できるようにすることで、医療イノベーションを可能にします。 ガートナーの予測 2024 年までに、組織が AI プラットフォームのトレーニングに使用するデータの 60% が合成データになると予想されており、これは 1 年の 2021% から大幅に増加します。
で、私たちのチーム シント 医療データ利用の限界と課題について紹介します。また、合成データセットを使用してこれらの課題を克服する方法についても説明します。
Synthoガイド
合成データ生成のガイド
現実世界の医療データを使用する際の主な課題
医療機関がデータを活用する 証拠に基づいた意思決定を行い、患者の転帰を向上させ、医学研究を実施します。しかし、企業は多くの場合、正確な予測を妨げるデータ不足と粒度の欠如に悩まされています。この課題は、プライバシー規制に対処するために導入された厳格なセキュリティ対策によってさらに悪化しています。
厳格なプライバシーとセキュリティ規制
医療データは、米国のHIPAAやEUのGDPRなどの厳格な規制に従って収集、保存、共有する必要があります。これは、がんや心血管疾患、呼吸器疾患などの深刻な病状に関するデータの場合に特に重要であり、識別情報が患者の生活に重大な影響を与える可能性があります。 2023 年 IBM のデータ侵害のセキュリティー・コスト・レポート医療データ侵害は、19.93年連続で業界全体で最も高額な被害となっています。医療データ侵害の平均コストは、2023年に53.3件あたり2020万ドルに達し、500年から3.31%増加しました。小規模な医療機関(従業員XNUMX人未満)でも、データ侵害XNUMX件あたり平均XNUMX万ドルの損失が発生しています。医療データには厳格なプライバシーとセキュリティ規制が課せられていますが、課題はガイドラインの遵守だけにとどまりません。組織が規制に準拠しているとしても、侵害の頻度と深刻度が増していることから、堅牢なセキュリティ対策の必要性が強調されています。 匿名化 患者情報を保護するためのデータ慣行。
匿名化だけではデータのプライバシーは保証されません
しかしながら、 従来の匿名化されたデータは、大規模なデータセットでは不十分なことがよくありますデータの難読化やデータ マスキングなどの手法により、データ分析に必要な貴重な情報のほとんどが消去される可能性があります。これは、詳細な分析や調査に詳細なデータを利用する研究者にとって課題となります。
さらに、再識別のリスクは依然として存在します。研究によると、 最大 40 個の変数に対する健康記録の匿名化が侵害される可能性がある データセットに固有の特徴 (希少疾患や特定の薬剤など) が含まれている場合。
質の高い医療データが不足している
医療機関では、患者の症状、診断、治療結果に関するデータが不足していることが多く、データへのアクセスが妨げられるという課題に直面しています。この不足により、研究に不可欠な臨床上のニュアンスを把握する能力が制限されます。
ガートナーは、生成AIで作成された合成データの使用が増加すると予測している。 (医療業界やその他の業界で) データの可用性のギャップを埋めるために、生成 AI モデルのトレーニングにはどのようなデータが使用されるのでしょうか? これは正当な質問です。データ サイエンティストが最適な結果を得るには、高品質のトレーニング データが必要になるからです。
QA データセットは互換性がないか、低品質である可能性があります
健康データは、相互に互換性のない形式でさまざまなソースから取得される場合があります。組織は、構造化された電子医療記録 (EHR) と、ウェアラブル、サードパーティ ソフトウェア、および紙の記録からの非構造化データを組み合わせる必要があります。
人為的エラーやシステム障害はデータの品質に影響を及ぼし、データ分析の信頼性を低下させ、データの有用性に影響を及ぼす可能性があります。その結果、誤った結論や誤った判断につながる可能性があります。
主要な課題の概要を説明したので、合成ヘルスケアデータがどのようにそれらの課題に対処できるかを詳しく説明します。
ガートナーは、生成AIで作成された合成データの使用が増加すると予測している。 (医療業界やその他の業界で) データの可用性のギャップを埋めるために、生成 AI モデルのトレーニングにはどのようなデータが使用されるのでしょうか? これは正当な質問です。データ サイエンティストが最適な結果を得るには、高品質のトレーニング データが必要になるからです。
医療における合成データはどのように役立ちますか?
合成データ 統計モデルとアルゴリズムを使用して作成され、人工的に生成されたデータ ポイントです。
このアルゴリズムは、現実世界のデータのすべてのパターンと関係を模倣し、合成データを作成します。
このデータ生成モデルは、現実世界のデータ内のパターンを検出して学習し、実際のデータセットの合成データ ツインを生成し、その統計特性を維持しながら個人を特定できる情報 (PII) を置き換えます。
AI によって生成された人工的な医療データの役割は、医療の革新に変革をもたらす可能性があります。合成データセットは、実際の医療データが品質の問題で使用できない場合、プライバシーの制約によりアクセスできない場合、質の高いデータ分析を行うにはデータが少なすぎる場合に代替手段を提供します。合成データセットでトレーニングされた機械学習モデルは、機密情報を保護しながら革新的なソリューションの開発に役立ちます。実際、医療組織や関連ビジネスに複数のメリットをもたらします。 合成データのROI.
医療機関にとっての合成データの利点
合成データは医療提供者にとって大きな可能性を秘めています、大手製薬会社、ソフトウェア開発者。これらの利点は、プライバシーやコンプライアンスの利点から、コスト削減や研究の合理化まで多岐にわたります。
合成患者データによりプライバシーのリスクが軽減される
合成データにより、医療機関は個人情報を明かすことなく機密データを共有できます。その結果、データ漏洩が発生した場合に機密情報を漏洩するリスクが軽減され、訴訟や規制上の罰金の可能性が制限されます。合成データセットのプライバシーに重点を置いたことにより、Synthoは、 2023 年に台頭する生成 AI ヘルスケア関連スタートアップ.
プライバシーを維持する例として、合成データセットが患者の診察日を処理する方法が挙げられます。診察日は、特定の個人にリンクできる情報です。患者のデータとプライバシーを保護するために、ML モデルは人工的な診察日を作成しますが、実際の診察のパターン (診察回数や診察間隔など) が保持されるようにします。
データの合成により時間とリソースが節約されます
AI が生成した合成データ プラットフォームにより、医療データにアクセスするための事務的な負担と費用がなくなります。検討すべき契約条件と実装すべきガバナンス プロセスが少なくなります。これにより、医療提供者と臨床研究機関の時間とコストが節約されます。また、質の高いデータに迅速にアクセスできない企業に対して競争上の優位性も得られます。
高度なプラットフォームは、コンプライアンスやプライバシーの侵害からユーザーを保護するデータを作成します。完全一致の同一一致率 (IMR)、類似一致の最近接レコードまでの距離 (DCR)、外れ値の一致の最近傍距離比 (NNDR) などの重要な指標のプライバシーを自動的に評価します。データを扱う際のコンプライアンスとプライバシーのリスクが軽減されます。
Syntho の AI データ生成ソリューションが 2023 年グローバル SAS ハッカソンで優勝 ヘルスケアとライフサイエンスの分野で、業界の専門家は、患者のデータとプライバシーを損なうことなく、研究、分析、イノベーションのための高品質の合成データを病院に提供できる当社のプラットフォームを評価しました。 カリフォルニアの大手病院は当社の人工データ生成を使用しています 臨床試験を含む研究を推進するためのプラットフォーム。
合成データはデータ アクセスのギャップを埋めることができます
合成データは、実際のデータが不足していて制限されている場合や、データ アクセスに問題がある場合に役立ちます。さらに、このデータは実際のデータの重要な特徴とパターンを保持し、元のデータの統計的特性を維持するため、医療研究データ センターの専門家にとって非常に貴重です。
たとえば、米国の製薬会社が管理する臨床試験に EU のがん患者が登録されている場合、外国の医療機関からデータを入手しようとすると法的な障害に遭遇する可能性があります。生成 AI プラットフォームは、面倒な作業をせずに必要なデータセットを取得するのに役立ちます。私たちのパートナー、 LifeLines は、AI データ生成ソリューションを使用して、医療研究用の合成データを提供します。
AI 機械学習アルゴリズムは、人工医療データをトレーニングできます。 私たちの調査では、合成データを使用して ML モデルをトレーニングできることが確認されました コスト効率に優れています。比較により、実際のデータでトレーニングされたモデルと同等の予測機能が示されます。合成データでは、データ共有が可能になるため、予測精度も向上します。たとえば、2 つの病院のデータでトレーニングされたモデルは、1 つの病院のデータのみでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。
合成データにより希少疾患の研究が促進される
合成データは、研究者が集団の健康状態や病気の状態を研究するのに役立ちます。多様なデータ サンプリングにより、実際の患者データを大量に取得することが困難または不可能なシナリオでのテストの機会が広がります。
エラスムス MC、大学医療センター、 合成データ生成プラットフォームを活用 高度な分析のために合成された患者の EMR データを使用する。彼らは、私たちのデータセットが実際のデータの統計的特性を反映しており、個人を特定できる情報を一切開示していないことを強調しています。
だからといって、人工データが常に安全に使用できるというわけではなく、すべての合成データが価値があるわけではありません。階層データの合成の課題、データの偏り、バランスの問題など、技術的な制限に直面する可能性もあります。さらに、関係者は合成データの有効性を綿密に検討し、特定のユースケースごとに重要なものを優先し、合成データを生成する際の期待を効果的に管理する必要があります。
幸いなことに、私たちはこれらの課題に対処する方法を知っています。 Syntho の合成データ エンジンはすべての構造化データ タイプに対応します オンプレミスのインフラストラクチャやプライベート クラウドに簡単に導入できます。 医療におけるユースケースのデータ生成を支援します およびその他の事業。
たとえば、私たちは 合成データには SAS Viya 分析プラットフォームを使用しました 合成された健康データが、相関関係、モデルのパフォーマンス、変数の重要性の点で、実際のデータの品質を反映していることを証明します。曲線下面積 (AUC) スコアにより、複数の病院からのデータを合成した場合の予測精度が 0.74 から 0.78 に向上します (初期システムの結果と比較)。
医療分析のための Synth 合成データのイノベーション
合成データの生成は、医療分析システムにとって画期的な出来事です。合成データによって、データ アクセスのギャップが解消され、病気検出アルゴリズムが改善され、データ主導の医療研究が可能になります。さらに、合成データ アプローチにより、コンプライアンスとプライバシーの課題が大幅に軽減されます。
ヘルスケア データは、ほとんどの業界のデータよりも複雑で、時間に敏感です。そのため、組織は評判が高く信頼できるヘルスケア データ プラットフォーム プロバイダーと連携する必要があります。信頼できる技術パートナーがいれば、可能性はほぼ無限です。Syntho は Syntho Engine を備え、AI 生成合成データ分野の最前線に立っています。当社は、現在の技術的課題に対処し、ヘルスケア データ分析における新しい画期的なアプリケーションの探求に注力しています。
もっと詳しく知りたいですか?詳細については、ダウンロードして調べてください。 ヘルスケアレポート or イントロコールをスケジュールする.
Synthoについて
シント は、複数の合成データ形式と生成方法を活用したスマートな合成データ生成プラットフォームを提供し、組織がデータをインテリジェントに変換して競争上の優位性を獲得できるようにします。当社の AI 生成合成データは、元のデータの統計パターンを模倣し、SAS などの外部専門家による評価で、正確性、プライバシー、速度を保証します。スマートな匿名化機能と一貫したマッピングにより、機密情報は保護され、参照整合性が維持されます。当社のプラットフォームでは、ルールベースの合成データ生成方法を使用して対象シナリオに合わせ、非本番環境のテスト データの作成、管理、制御が可能です。さらに、ユーザーはプログラムで合成データを生成し、現実的なテスト データを取得して、包括的なテストおよび開発シナリオを簡単に開発できます。
関連記事
あなたの 合成 データガイド 今
合成データとは何ですか?
システムを教えてください。
なぜ組織はそれを使用するのですか?
開始するには?
ニュースレターに登録する
合成データの最新ニュースを常にチェック