こんにちは。本日はどのようなご用件でしょうか?

リソースを閲覧し、ナレッジベースを検索

ウェビナー: テストデータ管理の未来
Syntho はテキストや非構造化データ内の PII を検出してマスクできますか? Syntho は一般に非構造化データで動作しますか?

はい、Syntho には、非構造化テキスト データ内の PII を識別してマスクできる PII テキスト スキャナーがあります。たとえば、名前、日付、社会保障番号などの機密情報をタグ付けして難読化し、模擬置換を作成することで、医師のメモなどのテキスト フィールド内の PII を検出して置換できます。

さらに詳しい情報は このページ 「PII テキスト スキャナーの紹介」セクションをご覧ください。

金融会社として、データ セキュリティは最優先事項です。Syntho はオンプレミス展開をサポートしていますか? サポートしている場合、すべての機能がオンプレミスで利用できますか?

はい、オンプレミス展開をサポートしており、すべての機能がオンプレミスで利用可能です。

合成データは暗黙のビジネス ルールに「準拠して」生成されますか? 言い換えると、ジェネレーターはビジネス ルールを推測できますか?

はい、Syntho の AI を活用した生成では、列間のパターンと複雑な関係を自動的にキャプチャし、生成された合成データで再現します。

さらに、Syntho は、計算列を含むルールベースの合成データ メソッドを提供し、たとえばまだデータがない場合にビジネス ルールを最初からモデル化します。

PII スキャン レポートを Excel またはメモ帳でダウンロードできますか? それともツール内でのみ表示できますか?

ツール内で表示できるだけでなく、テキストとしてエクスポートするオプションもあります。

Syntho は、複雑なリレーショナル データセット (単純なツリー構造を超える) の合成バージョンを生成できますか?

Syntho のテスト データ管理ソリューションは、複雑なリレーショナル データセットを含む大規模な機密データをマスクおよび匿名化するように設計されています。Syntho の一貫性のあるマッピング機能は、複雑なリレーショナル データセットの一貫性と参照整合性の維持を実現するために重要であり、テーブル間、データベース間、システム間、さらには時間の経過にも関わらず機能します。

モックデータの有効性をどのように確認しますか?

Syntho は、現実世界のデータ特性を正確に模倣する 150 を超える模擬データ ジェネレーターを提供します。ルールベースの合成データは、特定の要件に合わせてカスタマイズすることもできます。

PII 情報を検出して適応することはできますか?

はい、Syntho はセットアップ時に設定されたとおり、またウェビナー中にデモンストレーションされたとおりに PII データを検出し、適応できます。

PIIスキャナーの詳細については、 こちら.

PIIを適応させるモッカーの詳細については、 こちら.

Syntho には Blob を処理する機能がありますか?

Syntho は、列の複製と除外の両方による Blob データの処理をサポートしています。詳細については、ユーザー ドキュメントをご覧ください。必要に応じて、これについてさらに詳しく説明することもできます。

生年月日などのすべての個人情報が検出されていることをどのように確認しますか?

PII スキャナーは、すべての PII 属性と識別子を検出します。生年月日だけでは個人を一意に識別できない場合がありますが、必要に応じて生年月日などの属性やその他の変数を含めるようにスキャナーをカスタマイズできます。また、当社の PII スキャナーは、生年月日などの非識別子も検出できます。

スキャナーは「浅い」スキャンと「深い」スキャンの両方を提供します。浅いスキャンでは列名やデータ型などのメタデータを確認し、深いスキャンでは高度なエンティティ認識を活用して実際のデータを詳細に分析します。この柔軟性により、検出する PII タイプを指定できます。

たとえ PII に関連するものであっても、模擬データを保護する必要があるのはなぜですか?

PII(個人識別情報)とは、個人にリンクされた機密データを指します。プライバシー規制により、個人データをテスト目的で使用することは困難であるため、このデータを適切に保護することが不可欠です。

PII スキャナー
PII を手動で特定することもできますか?

はい、ユーザーは PII スキャナーの代わりに PII エンティティを手動で識別することもできます。ユーザーは、自動化された推奨モッカーの代わりにモッカーを手動で適用することもできます。ただし、手動作業を軽減し、大量のデータを迅速に処理できるように、AI が作業を行うようにプラットフォームを最適化しました。

組織が PII 列スキャナを使用するのはなぜですか?

匿名化を開始するには、個人を特定できる情報 (PII) を含む列を特定することが不可欠です。ただし、これには多くの場合、開発者に多大な時間と手作業が必要になります。

当社のソリューションは、自動化された PII スキャナーによってこのプロセスを合理化し、お客様が当社の AI を活用した PII スキャナーで PII を効率的に識別および匿名化できるようにします。当社の高度な AI を活用したソリューションにより、手作業が不要になり、効率が向上し、機密データの包括的な識別が自動的に保証されます。

PII の定義

PII の略 Personally Identifiable InformationPII は各個人に固有であり、同じ特性を共有する人は 1 人だけです。 PII の定義について詳しくは、こちらをご覧ください。 こちら.

ウェビナー: 安全なデータ、よりスマートなテスト
Syntho は企業向けのフルスタック データ プラットフォームに統合できますか?

はい、Syntho はフルスタック データ プラットフォームに統合できます。お客様の特定のユースケースについて詳細をお聞かせいただければ幸いですが、当社では REST API を介した統合をサポートすることがよくあります。

UI ベースのプラットフォームに加えて、REST API を使用すると、すべての機能を自動化して統合できるため、既存のデータ パイプラインやテスト環境内でシームレスな統合が可能になります。さらに詳しく知りたい場合は、Syntho をアーキテクチャにどのように適合させるかについて喜んでご相談に応じます。

Syntho は通常どのようにデプロイメントを処理しますか?

当社の導入プロセスは構造化されたオンボーディング フェーズに従っており、組織がプラットフォームを正常に統合して使用できるようにしています。このプロセスには次のものが含まれます。

  • 要件収集 – 組織の特定のニーズを理解する
  • ステップバイステップの導入 – 既存のシステムへのシームレスな統合を実現
  • Syntho Bootcamp – プラットフォームを効果的に使用するための知識をチームに提供するトレーニング プログラム

デモや詳細なセッションにご興味がございましたら、お気軽にお問い合わせください。 私たちに手を差し伸べる.

クライアントのクラウド環境での Syntho の導入はコスト面でどのように機能しますか?

Syntho は顧客のインフラストラクチャ内に導入されるため、組織のハードウェア上で実行されます。

リソース要件を明確にするために、詳細なハードウェア仕様を当社のウェブサイトに掲載しています。 ユーザーマニュアル.

一般的な開始要件は次のとおりです。

  • 12~20 個の仮想 CPU
  • メモリの32GB
  • 128GBのディスクストレージ

ただし、正確なリソース要件は、処理されるデータの量によって異なります。組織がインフラストラクチャのニーズを見積もるのに役立つ関連の詳細を記載したドキュメントを共有します。

この技術は、Chipsoft と連携している病院でも可能ですか?

はい、それは間違いなく可能です。私たちは、Chipsoft ソフトウェアを使用している複数の医療機関と話をしました。

Chipsoft で私たちが観察した主な課題の 1 つは、組織がデータを所有している一方で、テーブル間の関係が Chipsoft 側に保存されていることです。これにより、テーブル間の関係を維持するために不可欠な外部キーに課題が生じます。

これに対処するために、当社のプラットフォームでは、生成されたテストデータに外部キーを自動的に追加できるソリューションを提供しています。手動で1つずつ追加する代わりに、JSONファイルを使用して外部キーをインポートし、プラットフォーム内で外部キースキャンを実行して関係を検出して適用することができます。

これにより、プロセスが合理化されながら、テスト データが必要な構造を保持することが保証されます。

合成データ
合成データ (合成データ ツイン) とモック データの違いは何ですか?

モック データと AI によって生成された合成データはどちらも合成データの一種ですが、生成方法と目的が異なります。

モック データは、手動で作成される合成データの一種で、多くの場合、テストや開発の目的で使用されます。 通常、制御された環境で実際のデータの動作をシミュレートするために使用され、システムまたはアプリケーションの機能をテストするためによく使用されます。 多くの場合、シンプルで簡単に生成でき、複雑なモデルやアルゴリズムを必要としません。 多くの場合、モックデータを「ダミーデータ」または「偽データ」として言及する人もいます。

一方、AI によって生成された合成データは、機械学習や生成モデルなどの人工知能技術を使用して生成されます。 厳格なプライバシー規制のために現実世界のデータを使用することが非現実的または非倫理的である場合に、現実世界のデータの代わりに使用できる現実的で代表的なデータを作成するために使用されます。 多くの場合、手動のモック データよりも複雑で、より多くの計算リソースが必要です。 その結果、はるかに現実的になり、元のデータを可能な限り忠実に模倣します。

要約すると、模擬データは手動で作成され、通常はテストと開発に使用されますが、AI によって生成された合成データは人工知能技術を使用して作成され、代表的で現実的なデータを作成するために使用されます。

モッカーとモックデータをサポートしていますか?

はい。 さまざまな付加価値のある合成データの最適化および拡張機能 (モッカーを含む) を提供して、データを次のレベルに引き上げます。

「合成データツイン」を生成するとはどういう意味ですか?

合成データ ツインは、現実世界のデータセットやデータベースのアルゴリズムによって生成されたレプリカです。 Syntho は、Synthetic Data Twin を使用して、元のデータセットまたはデータベースをできるだけ元のデータに近づけて模倣し、元の現実的な表現を作成することを目指しています。 合成データ ツインを使用して、元のデータと比較して優れた合成データの品質を目指します。 これは、最先端の AI モデルを使用する合成データ ソフトウェアを使用して行います。 これらの AI モデルは、まったく新しいデータポイントを生成し、元のデータであるかのように使用できる程度まで、元のデータの特性、関係、および統計的パターンを保持するような方法でそれらをモデル化します。

これは、機械学習モデルのテストとトレーニング、研究開発のためのシナリオのシミュレーション、トレーニングと教育のための仮想環境の作成など、さまざまな目的に使用できます。 合成データ ツインを使用して、現実世界のデータが利用できない場合、または厳格なデータ プライバシー規制のために現実世界のデータを使用することが非現実的または非倫理的である場合に、現実世界のデータの代わりに使用できる現実的で代表的なデータを作成できます。

典型的な合成データのユースケースは何ですか?

一般的に、ほとんどのクライアントは次の目的で合成データを使用します。

  • ソフトウェアのテストと開発
  • 分析、モデル開発、高度な分析 (AI & ML) のための合成データ
  • 製品デモ
データ品質
マルチテーブルデータベースで参照整合性を維持していますか?

はい。 当社のプラットフォームはデータベース用に最適化されているため、データベース内のデータセット間の参照整合性が維持されます。

これについてもっと知りたいですか?

専門家に直接お問い合わせください.

AIで生成された合成データの品質は、高度な分析(AI、ML、BIなど)に十分ですか?

はい、そうです。 合成データには、元のデータに存在することを知らなかったパターンも含まれています。

しかし、私たちの言葉だけを信じてはいけません。 SAS(分析のグローバルマーケットリーダー)の分析専門家は、合成データの(AI)評価を行い、元のデータと比較しました。 奇妙? 見る ここでイベント全体 またはについての短いバージョンを見る ここのデータ品質.

Synthoは、生成された合成データの品質をどのように実証しますか?

合成データが元のデータと同じデータ品質を保持することを保証することは困難な場合があり、多くの場合、特定のユース ケースと合成データの生成に使用される方法に依存します。 生成モデルなど、合成データを生成する一部の方法では、元のデータと非常によく似たデータを生成できます。 重要な質問: これをどのように実証するか?

合成データの品質を確保するには、いくつかの方法があります。

  • データ品質レポートによるデータ品質指標: 合成データが元のデータと同じデータ品質を保持していることを確認する XNUMX つの方法は、データ品質メトリックを使用して合成データを元のデータと比較することです。 これらのメトリックを使用して、データの類似性、正確性、完全性などを測定できます。 Syntho ソフトウェアには、さまざまなデータ品質指標を含むデータ品質レポートが含まれていました.
  • 外部評価: 元のデータと比較した合成データのデータ品質が重要であるため、最近、Syntho による合成データのデータ品質を実際のデータと比較して実証するために、SAS (分析のマーケット リーダー) のデータ エキスパートと評価を行いました。 SAS の分析エキスパートである Edwin van Unen は、Syntho から生成された合成データセットをさまざまな分析 (AI) 評価によって評価し、その結果を共有しました。 ここでそのビデオの短い要約を見る.
  • 自分でテストして評価する: 合成データは、実世界のデータと比較するか、それを使用して機械学習モデルをトレーニングし、そのパフォーマンスを実世界のデータでトレーニングされたモデルと比較することによって、テストおよび評価できます。 合成データのデータ品質を自分でテストしてみませんか? この可能性については、こちらで専門家にお尋ねください.

合成データが元のデータと 100% 似ていることを保証することはできませんが、特定のユース ケースに役立つほど十分に近い場合があることに注意してください。 この特定のユース ケースは、高度な分析や機械学習モデルのトレーニングでさえあります。

プライバシー
オランダのデータ保護機関は、合成データの使用について何と言っていますか?

オランダのデータ保護機関が特に強調しているユース ケースの XNUMX つは、合成データをテスト データとして使用することです。

詳細については、この記事を参照してください。

Syntho QA レポートにはどのようなプライバシー指標がありますか?

Syntho の QA レポートには XNUMX つの内容が含まれています 業界標準 データのプライバシーを評価するための指標。 これらの各指標の背後にある考え方は次のとおりです。

  • 合成データ (S) は、ターゲット データに「できるだけ近い」が、「近すぎない」必要があります (T).
  • ランダムに選択されたホールドアウト データ (H) は、「近すぎる」ためのベンチマークを決定します。
  • 完璧なソリューション 元のデータとまったく同じように動作するが、これまでに見られなかった新しい合成データを生成します (= H).
プライバシーをどのように証明しますか?

はい、QA レポートを通じてこれを行います。

データセットを合成するとき、個人を再識別できないことを示すことが不可欠です。 の 動画、Marijnは、これを実証するために品質レポートにあるプライバシー対策を紹介します。

Syntho は私のデータを見て処理しますか?

いいえ。Syntho Engine はセルフサービス プラットフォームです。そのため、Syntho Engine を使用した合成データの生成は、エンドツーエンドのプロセスで Syntho がデータを見ることも処理する必要もなく、実行可能です。

合成データを生成するために自分のデータを Syntho と共有する必要がありますか?

いいえ。お客様の信頼できる環境に簡単に導入できるように、プラットフォームを最適化しました。 これにより、お客様の信頼できる環境からデータが流出することはありません。 お客様の信頼できる環境の展開オプションには、「オンプレミス」と「お客様のクラウド環境 (プライベート クラウド)」があります。

Synthoは合成データを作成するために私のデータにアクセスする必要がありますか?

いいえ、ありません。 Syntho Engine は、オンプレミスまたは Docker を介してプライベート クラウドに簡単にデプロイできます。

Synthoエンジン
データベースがある場合、参照整合性は維持されますか?

はい。 Syntho ソフトウェアは、複数のテーブルを含むデータベース向けに最適化されています。

これに関して、Syntho はデータの種類、スキーマ、および形式を自動的に検出して、データの精度を最大化します。 複数テーブル データベースの場合、自動テーブル リレーションシップの推論と合成をサポートして、参照整合性を維持します。

Syntho を使用するには GPU が必要ですか?

いいえ、データの精度を損なうことなく、計算要件を最小限に抑えるようにプラットフォームを最適化しました (例: GPU は必要ありません)。 さらに、Auto Scaling をサポートしているため、巨大なデータベースを合成できます。

どのデータ型をサポートしていますか?

Syntho Engine は、構造化された表形式のデータ (行と列を含むもの) で最適に機能します。 これらの構造内では、次のデータ型がサポートされています。

  • テーブルでフォーマットされた構造データ(カテゴリ、数値など)
  • 直接識別子とPII
  • 大規模なデータセットとデータベース
  • 地理的位置データ(GPSなど)
  • 時系列データ
  • マルチテーブルデータベース(参照整合性付き)
  • テキストデータを開く

 

複雑なデータのサポート
すべての通常のタイプの表形式データに加えて、Syntho Engine は複雑なデータ タイプと複雑なデータ構造をサポートします。

  • 時系列
  • マルチテーブルデータベース
  • オープンテキスト
Syntho Engineを使用するには特定のスキルが必要ですか?

いいえ、まったく問題ありません。合成データの利点、仕組み、使用例を完全に理解するには多少の労力がかかるかもしれませんが、合成のプロセスは非常に簡単で、基本的なコンピューターの知識があれば誰でも実行できます。合成プロセスの詳細については、このページをご覧ください。 デモをリクエストする.

データを合成するには、いくつのトレーニング レコードが必要ですか?

Syntho の機械学習アルゴリズムは、より多くのエンティティ レコードを使用して機能をより適切に一般化できるため、プライバシー リスクが軽減されます。 列と行の最小比率は 1:500 にすることをお勧めします。 たとえば、ソース テーブルに 6 列ある場合、最低 3000 行を含める必要があります。

合成データの生成にはどのくらい時間がかかりますか?

当然、生成時間はデータベースのサイズによって異なります。 平均して、1 万レコード未満のテーブルは 5 分未満で合成されます。

Syntho Engine とデータをどのように接続しますか?

Syntho を使用すると、データベース、アプリケーション、データ パイプライン、またはファイル システムに簡単に接続できます。

さまざまな統合コネクタをサポートしているため、ソース環境 (元のデータが保存されている場所) と宛先環境 (合成データを書き込む場所) に接続して、エンドツーエンドの統合アプローチを実現できます。

サポートされている接続機能:

  • Dockerとのプラグアンドプレイ
  • 20以上のデータベースコネクタ
  • 20以上のファイルシステムコネクタ
どの展開オプションをサポートしていますか?

Syntho EngineはDockerコンテナーで出荷され、選択した環境に簡単にデプロイしてプラグインできます。

可能な展開オプションは次のとおりです。

  • オンプレミス
  • 任意の(プライベート)クラウド
  • その他の環境

続きを読む.

建設 より良く、より速く 今日の合成データ

データ アクセスを解放し、開発を加速し、データのプライバシーを強化します。

ニュースレターに登録する

合成データの最新ニュースを常にチェック