わかります! 幸いなことに、私たちは答えを持っています。 よくある質問を確認してください。
以下の質問を開いて、リンクをクリックして詳細を確認してください。 ここに記載されていない、より複雑な質問がありますか? 専門家に直接お問い合わせください!
よくある質問
合成データとは、現実世界のソースから収集されたものではなく、人為的に生成されたデータを指します。 一般に、元のデータは人 (クライアント、患者など) とのすべてのやり取りで収集され、すべての内部プロセスを介して収集されますが、合成データはコンピューター アルゴリズムによって生成されます。
合成データを使用して、制御された環境でモデルをテストおよび評価したり、実際のデータに似ているが機密情報を含まないデータを生成して機密情報を保護したりすることもできます。 合成データは、プライバシーに配慮したデータの代替としてよく使用され、テストデータとして、分析や機械学習のトレーニングに使用できます。
合成データが元のデータと同じデータ品質を保持することを保証することは困難な場合があり、多くの場合、特定のユース ケースと合成データの生成に使用される方法に依存します。 生成モデルなど、合成データを生成する一部の方法では、元のデータと非常によく似たデータを生成できます。 重要な質問: これをどのように実証するか?
合成データの品質を確保するには、いくつかの方法があります。
- データ品質レポートによるデータ品質指標: 合成データが元のデータと同じデータ品質を保持していることを確認する XNUMX つの方法は、データ品質メトリックを使用して合成データを元のデータと比較することです。 これらのメトリックを使用して、データの類似性、正確性、完全性などを測定できます。 Syntho ソフトウェアには、さまざまなデータ品質指標を含むデータ品質レポートが含まれていました.
- 外部評価: 元のデータと比較した合成データのデータ品質が重要であるため、最近、Syntho による合成データのデータ品質を実際のデータと比較して実証するために、SAS (分析のマーケット リーダー) のデータ エキスパートと評価を行いました。 SAS の分析エキスパートである Edwin van Unen は、Syntho から生成された合成データセットをさまざまな分析 (AI) 評価によって評価し、その結果を共有しました。 ここでそのビデオの短い要約を見る.
- 自分でテストして評価する: 合成データは、実世界のデータと比較するか、それを使用して機械学習モデルをトレーニングし、そのパフォーマンスを実世界のデータでトレーニングされたモデルと比較することによって、テストおよび評価できます。 合成データのデータ品質を自分でテストしてみませんか? この可能性については、こちらで専門家にお尋ねください.
合成データが元のデータと 100% 似ていることを保証することはできませんが、特定のユース ケースに役立つほど十分に近い場合があることに注意してください。 この特定のユース ケースは、高度な分析や機械学習モデルのトレーニングでさえあります。
従来の「匿名化」が常に最適なソリューションであるとは限りません。その理由は次のとおりです。
- プライバシーリスク – あなたはいつも持っています
プライバシーのリスク。 それらを適用する
古典的な匿名化手法
難しくするだけですが、そうではありません
個人を特定することは不可能です。 - データの破棄 – より多くのあなた
匿名化するほど、保護が強化されます
あなたのプライバシーですが、
あなたのデータを破壊します。 これは何ではありません
分析が必要な理由
破壊されたデータは不良になります
洞察。 - 時間がかかる – それは解決策です
それには多くの時間がかかります。
それらのテクニックは異なる働きをします
データセットごとおよびデータ型ごと。
合成データは、これらの欠点をすべて解決することを目的としています。 その違いはあまりにも印象的だったので、それについてのビデオを作りました。 ここで見てください.
よくある質問
合成データ
一般的に、ほとんどのクライアントは次の目的で合成データを使用します。
- ソフトウェアのテストと開発
- 分析、モデル開発、高度な分析 (AI & ML) のための合成データ
- 製品デモ
合成データ ツインは、現実世界のデータセットやデータベースのアルゴリズムによって生成されたレプリカです。 Syntho は、Synthetic Data Twin を使用して、元のデータセットまたはデータベースをできるだけ元のデータに近づけて模倣し、元の現実的な表現を作成することを目指しています。 合成データ ツインを使用して、元のデータと比較して優れた合成データの品質を目指します。 これは、最先端の AI モデルを使用する合成データ ソフトウェアを使用して行います。 これらの AI モデルは、まったく新しいデータポイントを生成し、元のデータであるかのように使用できる程度まで、元のデータの特性、関係、および統計的パターンを保持するような方法でそれらをモデル化します。
これは、機械学習モデルのテストとトレーニング、研究開発のためのシナリオのシミュレーション、トレーニングと教育のための仮想環境の作成など、さまざまな目的に使用できます。 合成データ ツインを使用して、現実世界のデータが利用できない場合、または厳格なデータ プライバシー規制のために現実世界のデータを使用することが非現実的または非倫理的である場合に、現実世界のデータの代わりに使用できる現実的で代表的なデータを作成できます。
はい。 さまざまな付加価値のある合成データの最適化および拡張機能 (モッカーを含む) を提供して、データを次のレベルに引き上げます。
モック データと AI によって生成された合成データはどちらも合成データの一種ですが、生成方法と目的が異なります。
モック データは、手動で作成される合成データの一種で、多くの場合、テストや開発の目的で使用されます。 通常、制御された環境で実際のデータの動作をシミュレートするために使用され、システムまたはアプリケーションの機能をテストするためによく使用されます。 多くの場合、シンプルで簡単に生成でき、複雑なモデルやアルゴリズムを必要としません。 多くの場合、モックデータを「ダミーデータ」または「偽データ」として言及する人もいます。
一方、AI によって生成された合成データは、機械学習や生成モデルなどの人工知能技術を使用して生成されます。 厳格なプライバシー規制のために現実世界のデータを使用することが非現実的または非倫理的である場合に、現実世界のデータの代わりに使用できる現実的で代表的なデータを作成するために使用されます。 多くの場合、手動のモック データよりも複雑で、より多くの計算リソースが必要です。 その結果、はるかに現実的になり、元のデータを可能な限り忠実に模倣します。
要約すると、模擬データは手動で作成され、通常はテストと開発に使用されますが、AI によって生成された合成データは人工知能技術を使用して作成され、代表的で現実的なデータを作成するために使用されます。
データ品質
合成データが元のデータと同じデータ品質を保持することを保証することは困難な場合があり、多くの場合、特定のユース ケースと合成データの生成に使用される方法に依存します。 生成モデルなど、合成データを生成する一部の方法では、元のデータと非常によく似たデータを生成できます。 重要な質問: これをどのように実証するか?
合成データの品質を確保するには、いくつかの方法があります。
- データ品質レポートによるデータ品質指標: 合成データが元のデータと同じデータ品質を保持していることを確認する XNUMX つの方法は、データ品質メトリックを使用して合成データを元のデータと比較することです。 これらのメトリックを使用して、データの類似性、正確性、完全性などを測定できます。 Syntho ソフトウェアには、さまざまなデータ品質指標を含むデータ品質レポートが含まれていました.
- 外部評価: 元のデータと比較した合成データのデータ品質が重要であるため、最近、Syntho による合成データのデータ品質を実際のデータと比較して実証するために、SAS (分析のマーケット リーダー) のデータ エキスパートと評価を行いました。 SAS の分析エキスパートである Edwin van Unen は、Syntho から生成された合成データセットをさまざまな分析 (AI) 評価によって評価し、その結果を共有しました。 ここでそのビデオの短い要約を見る.
- 自分でテストして評価する: 合成データは、実世界のデータと比較するか、それを使用して機械学習モデルをトレーニングし、そのパフォーマンスを実世界のデータでトレーニングされたモデルと比較することによって、テストおよび評価できます。 合成データのデータ品質を自分でテストしてみませんか? この可能性については、こちらで専門家にお尋ねください.
合成データが元のデータと 100% 似ていることを保証することはできませんが、特定のユース ケースに役立つほど十分に近い場合があることに注意してください。 この特定のユース ケースは、高度な分析や機械学習モデルのトレーニングでさえあります。
プライバシー
いいえ、ありません。 Syntho Engine は、オンプレミスまたは Docker を介してプライベート クラウドに簡単にデプロイできます。
いいえ。お客様の信頼できる環境に簡単に導入できるように、プラットフォームを最適化しました。 これにより、お客様の信頼できる環境からデータが流出することはありません。 お客様の信頼できる環境の展開オプションには、「オンプレミス」と「お客様のクラウド環境 (プライベート クラウド)」があります。
オプション: Syntho は、「Syntho クラウド」でホストされているバージョンをサポートしています。
いいえ。Syntho Engine はセルフサービス プラットフォームです。そのため、Syntho Engine を使用した合成データの生成は、エンドツーエンドのプロセスで Syntho がデータを見ることも処理する必要もなく、実行可能です。
はい、QA レポートを通じてこれを行います。
データセットを合成するとき、個人を再識別できないことを示すことが不可欠です。 の 動画、Marijnは、これを実証するために品質レポートにあるプライバシー対策を紹介します。
Syntho の QA レポートには XNUMX つの内容が含まれています 業界標準 データのプライバシーを評価するための指標。 これらの各指標の背後にある考え方は次のとおりです。
- 合成データ (S) は、ターゲット データに「できるだけ近い」が、「近すぎない」必要があります (T).
- ランダムに選択されたホールドアウト データ (H) は、「近すぎる」ためのベンチマークを決定します。
- A 完璧なソリューション 元のデータとまったく同じように動作するが、これまでに見られなかった新しい合成データを生成します (= H).
オランダのデータ保護機関が特に強調しているユース ケースの XNUMX つは、合成データをテスト データとして使用することです。
Synthoエンジン
Syntho EngineはDockerコンテナーで出荷され、選択した環境に簡単にデプロイしてプラグインできます。
可能な展開オプションは次のとおりです。
- オンプレミス
- 任意の(プライベート)クラウド
- その他の環境
Syntho を使用すると、データベース、アプリケーション、データ パイプライン、またはファイル システムに簡単に接続できます。
さまざまな統合コネクタをサポートしているため、ソース環境 (元のデータが保存されている場所) と宛先環境 (合成データを書き込む場所) に接続して、エンドツーエンドの統合アプローチを実現できます。
サポートされている接続機能:
- Dockerとのプラグアンドプレイ
- 20以上のデータベースコネクタ
- 20以上のファイルシステムコネクタ
当然、生成時間はデータベースのサイズによって異なります。 平均して、1 万レコード未満のテーブルは 5 分未満で合成されます。
Syntho の機械学習アルゴリズムは、より多くのエンティティ レコードを使用して機能をより適切に一般化できるため、プライバシー リスクが軽減されます。 列と行の最小比率は 1:500 にすることをお勧めします。 たとえば、ソース テーブルに 6 列ある場合、最低 3000 行を含める必要があります。
全くない。 合成データの利点、動作、および使用例を完全に理解するには多少の努力が必要かもしれませんが、合成のプロセスは非常に単純であり、基本的なコンピューター知識を持っている人なら誰でもそれを行うことができます。 合成プロセスの詳細については、チェックアウトしてください このページ or デモをリクエストする.
Syntho Engine は、構造化された表形式のデータ (行と列を含むもの) で最適に機能します。 これらの構造内では、次のデータ型がサポートされています。
- テーブルでフォーマットされた構造データ(カテゴリ、数値など)
- 直接識別子とPII
- 大規模なデータセットとデータベース
- 地理的位置データ(GPSなど)
- 時系列データ
- マルチテーブルデータベース(参照整合性付き)
- テキストデータを開く
複雑なデータのサポート
すべての通常のタイプの表形式データに加えて、Syntho Engine は複雑なデータ タイプと複雑なデータ構造をサポートします。
- 時系列
- マルチテーブルデータベース
- オープンテキスト
いいえ、データの精度を損なうことなく、計算要件を最小限に抑えるようにプラットフォームを最適化しました (例: GPU は必要ありません)。 さらに、Auto Scaling をサポートしているため、巨大なデータベースを合成できます。
はい。 Syntho ソフトウェアは、複数のテーブルを含むデータベース向けに最適化されています。
これに関して、Syntho はデータの種類、スキーマ、および形式を自動的に検出して、データの精度を最大化します。 複数テーブル データベースの場合、自動テーブル リレーションシップの推論と合成をサポートして、参照整合性を維持します。