すべての投稿を見る

プライバシーから可能性へ: SAS Hackathon の一環として、SAS Viya に統合された Syntho Engine を介して合成データを使用して、プライバシーの機密データを解き放つ

記事の著者
ウィム・キース・ヤンセン
ウィム・キース・ヤンセン CEO & 創設者​
目次

プライバシーに配慮した医療データのロックを解除する必要があるのでしょうか?

医療にはデータによる洞察が非常に必要です。 医療現場は人員が不足しており、命を救う可能性へのプレッシャーが過剰にあるからです。 ただし、医療データはプライバシーに最も機密性の高いデータであるため、ロックされています。 このプライバシーに関わる機密データは次のとおりです。

  • アクセスに時間がかかる
  • 膨大な書類手続きが必要
  • そして単純に使用することはできません

このハッカソンの目標は、大手病院のがん研究の一環として悪化と死亡率を予測することであるため、これには問題があります。 これが、Syntho と SAS がこの病院で協力する理由です。Syntho は合成データでデータのロックを解除し、SAS は最先端の分析プラットフォームである SAS Viya でデータの洞察を実現します。

Synthoガイド

合成データ生成のガイド

合成データ?

当社の Syntho Engine は、まったく新しい人工生成データを生成します。 主な違いは、AI を適用して合成データ内で現実世界のデータの特性を模倣し、分析に使用することもできる点です。 これが、私たちがこれを合成データ ツインと呼ぶ理由です。 これは本物と同等であり、統計的には元のデータと同一ですが、プライバシーのリスクはありません。

SAS Viyaに統合されたSynthoエンジン

このハッカソンでは、ステップとして Syntho Engine API を SAS Viya に統合しました。 ここでは、合成データが実際に SAS Viya で本物と同じくらい優れていることも検証しました。 がん研究を開始する前に、オープンデータセットを使用してこの統合アプローチをテストし、SAS Viya のさまざまな検証方法を通じて合成データが実際に本物と同等であるかどうかを検証しました。

合成データは本物と同じくらい優れていますか?

相関関係、つまり変数間の関係は保持されます。

モデルのパフォーマンスの尺度である曲線下面積は保持されます。

また、変数の重要性、つまりモデルに対する変数の予測力も、元のデータと合成データを比較するときに当てはまります。

したがって、SAS Viya の Syntho Engine によって生成された合成データは実際に本物と同等であり、モデル開発に合成データを使用できると結論付けることができます。 したがって、私たちは悪化と死亡率を予測するためにこの癌の研究から始めることができます。

大手病院のがん研究用合成データ

ここでは、SAS Viya のステップとして統合 Syntho Engine を使用し、このプライバシーに関わる機密データを合成データでロック解除しました。

結果は、AUC 0.74 となり、悪化と死亡率を予測できるモデルとなりました。

合成データを使用した結果、リスクが少なく、より多くのデータが得られ、より高速なデータ アクセスが可能な状況でこのヘルスケアを実現することができました。

複数の病院のデータを統合する

これは病院内だけでなく、複数の病院のデータを結合することも可能です。 したがって、次のステップは複数の病院からのデータを統合することでした。 関連するさまざまな病院データが、Syntho Engine を介して SAS Viya のモデルの入力として合成されました。 ここでは、AUC 0.78 を実現し、データが多いほどモデルの予測能力が向上することを示しています。

結果

このハッカソンの結果は次のとおりです。

  • Synth は SAS Viya にステップとして統合されています
  • SAS ViyaのSynthoを介して合成データが正常に生成されました
  • 合成データでトレーニングされたモデルは、元のデータでトレーニングされたモデルと同様のスコアを示すため、合成データの精度が承認されています。
  • 癌研究の一環として合成データで病状の悪化と死亡率を予測した
  • 複数の病院からの合成データを組み合わせると、AUC が増加することが実証されました。

次のステップ

次のステップは、

  • より多くの病院を含める
  • ユースケースを拡張し、
  • この技術はセクターに依存しないため、他の組織にも拡張できます。

このようにして、Syntho と SAS はデータを活用し、医療におけるデータ主導の洞察を実現し、命を救うという通常のプレッシャーを抱えながら医療現場に十分な人員を配置していることを確認します。

あなたの 合成 データガイド

合成データとは何ですか?

システムを教えてください。

なぜ組織はそれを使用するのですか?

開始するには?

ニュースレターに登録する

合成データの最新ニュースを常にチェック