拡張合成データ生成プラットフォーム機能

ハイライトされた機能

AIによって生成された合成データに最も要求された追加機能

PII 列スキャナーは、浅いスキャンまたは AI を利用した深いスキャンを介して、ユーザーのデータベース内の個人を特定できる直接的な情報 (PII) を自動的に検出する機能です。 また、AI エンジンは、各 PII エンティティのモッカーを代替として提案します。

オープン テキストの場合、Syntho の PII スキャナー機能は、組織がデータベース内だけでなくオープン テキスト データ内の個人を特定できる情報 (PII) を直接識別するのに役立ちます。 識別された PII エンティティは、削除するか、エンティティ プレースホルダーまたはモック値で置き換えることができます。

モック データは、直接の識別子を置き換えるために、実際の情報または機密情報の代わりになります。 高度なモッカーを使用して、ゼロから、または事前定義されたルールに基づいて合成データを生成し、データ生成プロセスを自動化して、必要な時間と労力を削減できます。

Syntho は、合成データ生成ジョブとソースおよびターゲット環境への接続を簡単に構成するためのすぐに使用できるコネクタを提供し、20 を超えるデータベースおよび 20 のファイルシステム コネクタと統合して、 end-to-end 統合的アプローチ。

データベースのサブセット化は、参照整合性が保持された、データベースのより小さな、またはより大きな代表的なサブセットを作成するプロセスです。 サブセット化は、より小さなデータ サブセットを作成することで、企業がデータを拡張したり、計算コストを削減したりするのに役立ちます。

ワークスペースの共有により、組織は合成データの使用を共同で拡大できます。 これにより、チームは同じワークスペース内で共同または個別に作業でき、役割に基づいてさまざまなレベルのアクセスと権限を使用できます。

ディープダイブ

AI によって生成された合成データに最も要求された追加機能を詳しく調べる

PII 列スキャナーとモッカー

PII 列スキャナーとは何ですか?

PII 列スキャナー機能により、ユーザーはデータベース内の直接的な個人識別情報 (PII) を自動的に検出できます。 この機能には、(1) 浅いスキャン (列名を含むメタデータのみ) と (2) 深いスキャン (メタデータ + およびデータ自体) の XNUMX つのスキャン オプションがあります。

浅い PII スキャン

浅いスキャンは、正規表現ルールを適用して、列名に基づいて各列に含まれる PII のタイプを推測します。

ディープ PII スキャン

ディープ スキャンは、各列の下のデータもスキャンして、潜在的な PII エンティティを検出します。 ただし、このスキャンは時間がかかり、リソースを大量に消費します。

PII として識別されるすべての列は、[PII] タブの PII エンティティのリストに表示され、[ジョブ設定] タブの列ヘッダーに PII というラベルが付けられます。

モッカーを PII に自動的に適用する

Syntho の AI エンジンは、PII エンティティごとに適切なモッカーを自動的に提案できるため、ユーザーの時間と労力を節約できます。 この機能を使用することで、機密性の高い元の PII が保護され、合成データに表示されず、複数テーブル データベースの参照整合性が保持された代表的なモック データに置き換えられることを確認できます。

手動での PII 検出とモッカー設定

ユーザーは、浅いスキャンや深いスキャンの代わりに、PII エンティティを手動で識別することもできます。 ユーザーは、自動化された推奨モッカーの代わりに手動でモッカーを適用することもできます。 ただし、手作業を軽減し、大量のデータを高速に処理できるように、AI が作業を行うようにプラットフォームを最適化しました。

公開テキストでの PII の識別と難読化

オープンテキストの PII スキャナー

Syntho Engine の PII スキャナー機能は、組織がデータベース内で個人を特定できる情報 (PII) を直接識別するのに役立ちますが、現在はオープンテクストでも識別できます。 PII には、名前、住所、社会保障番号、電子メール アドレス、電話番号など、個人を直接特定できる情報が含まれます。 PII スキャナーを使用すると、GDPR、HIPAA、CCPA など、個人情報を保護する手段が必要なオープンテクストのデータ保護規制に組織が準拠するのに役立ちます。

特定された PII を難読化する

識別された PII は、エンティティ、モッカー、またはデフォルト値によって削除、置換できます

PII が識別されると、Syntho Engine は情報を保護する XNUMX つの方法を提供します。

  • PII の削除、
  • PII をエンティティ プレースホルダーに置き換える、または
  • PII をモッカー値に置き換えます。 PII を削除すると、単に情報が削除されるか、デフォルト値またはモックに置き換えられます。

PII をエンティティ プレースホルダーに置き換えると、機密情報を保護しながらデータの構造を維持できます。 PII をモック値に置き換えると、機密情報が、元のデータの形式を維持する架空のデータに置き換えられます。

PII スキャナー機能を使用すると、オープン テキストでも機能するソリューションを利用できます。

PII の難読化

高度なモッカー

モックデータとは

モック データは、直接の識別子を置き換えるために、テストまたはその他の非運用目的で使用される実際の情報または機密情報の代わりとなります。 モッカーを使用して作成し、直接識別子 (PII) データの代わりに使用して、プライバシーとセキュリティを保護できます。

モッカーの場合、AI 生成合成データと比較して、高度なアルゴリズムは使用されません。 一方、AI によって生成された合成データは、高度なアルゴリズムと機械学習技術を使用して作成されます。 このタイプのデータは、高い精度で実際のデータを模倣するように設計されています。

参照整合性を維持するためのモッカー

AI によって生成された合成データに実際の識別子を含めたくないため、モッカーは識別子の優れた代替手段です。 当社の「シード」機能を使用することで、データ エコシステム全体 / マルチテーブル データベース全体で同じ入力を同じ出力に一致させて、列のカーディナリティを維持し、合成データ ジョブ、テーブル、データベース、およびシステム全体でデータを一致させて、参照整合性を維持します。

ルールベースで生成された合成データの高度なモッカー

私たちのプラットフォームは、合成データをゼロから、または事前定義されたルールに基づいて生成できる、幅広い高度なモッカーを提供します。 これらのモッカーを使用して、機械学習モデルのテストまたはトレーニング用の現実的なデータの大規模なデータセットを生成できます。 高度なモッカーは、データ生成プロセスを自動化することで、生成されるデータの一貫性と正確性を確保しながら、大規模なデータセットの作成に必要な時間と労力を削減するのに役立ちます。 さらに、高度なモッカーは、特定のユース ケースやシナリオに合わせてカスタマイズできるため、合成データを生成するための多用途のツールになります。

の新しいコネクタ end-to-end 統合的アプローチ

新しいコネクタ シンセ エンジン

すぐに使えるコネクタ

Syntho Engine に含まれているさまざまなすぐに使えるコネクタをサポートしているため、合成データ生成ジョブを簡単に構成し、Syntho Engine をソース環境とターゲット環境に接続できます。 その結果、Syntho の同僚は元のデータを見ることはなく、Syntho Engine と保存環境にアクセスする必要もありません。

統合のためにサポートされている機能

Syntho は、すべての主要なデータベースおよびファイルシステムと統合します。

  • Dockerとのプラグアンドプレイ
  • 20以上のデータベースコネクタ
  • 20以上のファイルシステムコネクタ

ノート

  • この図は、例としてサポートされている一部のコネクタのみを示しています。 サポートされているコネクタの完全なリストには、さらに多くのコネクタが含まれています。
  • コネクタが不足している場合はお知らせください。作成いたします。

サブセット化: データベースのより小さいまたはより大きい代表的なサブセットを作成します

サブセット化

データベースのサブセット化とは何ですか? なぜ重要なのですか?

データベースのサブセット化は、参照整合性が保持された、より大きな (より小さな) データベースのより小さな (より大きな) 代表的なサブセットを作成するプロセスです。 これは、Syntho などのソフトウェアを構成して、特定の割合または選択したデータを含めることによって行われます。 より正確な分析のためにデータを拡張する必要がある場合でも、より小さなデータ サブセットを作成して計算コストを削減する必要がある場合でも、Syntho Engine のジェネレーティブ AI テクノロジを使用すると、目標を簡単に達成できます。 高度なサブセット化機能により、プライバシー、パフォーマンス、または正確性を損なうことなく、ビジネスを強化するために必要なデータを取得できます。

より大きな: Syntho のジェネレーティブ AI テクノロジーを使用して、より大きなデータセットを作成します

ビジネス ニーズにより大きなデータセットまたはデータベースが必要ですか? Syntho の Generative AI Syntho Engine を使用すると、既存のデータを簡単にサブセット化し、ニーズに合わせてより大きなデータセットを作成できます。 より正確な分析を実行する場合でも、より多くのデータを使用して機械学習モデルをトレーニングする場合でも、Syntho Engine が対応します。

小さい: 小さいデータ サブセットで計算コストを削減する

一方、大量のデータを処理すると、特に本番環境でテストする場合に、計算コストが高くなる可能性があります。 そこで登場するのが Syntho Engine です。そのサブセット化機能を使用すると、データの小さなサブセットを簡単に作成して、正確なテスト結果を取得しながら計算コストを削減できます。

大規模な組織向けに合成データをスケーリングするためのワークスペース共有

ワークスペースの共有 1

ワークスペースの共有とは何ですか?

ワークスペースの共有は、合成データを扱う複数のチームまたは個人が関与する、合成データの使用を拡大しようとしている組織にとって価値のある機能です。 ワークスペースの共有は、ワークスペースの所有者と編集者がワークスペース内の他のユーザーに役割を委任できるようにする機能です。 この機能により、個人に特定のアクセス権と許可を与えることで、コラボレーションが可能になり、チーム内のワークフローが改善されます。

ワークスペースの共有が重要な理由は何ですか?

ワークスペースの共有は、合成データの使用を大規模に拡大しようとしている組織に特に関連しています。 このような組織では、複数のチームまたは個人が、データ生成およびモデリング プロセスのさまざまなユース ケースやさまざまな側面に取り組んでいる可能性があります。 ワークスペースの共有を利用することで、これらのチームまたは個人が同じワークスペースで共同作業を行うことができ、全員が一緒に、または別々に作業できるようになります。

利用可能なワークスペースの役割:

ワークスペースをユーザーと共有する場合、次のロールから選択できます。

  • 所有者: 編集および共有アクセスを含め、ワークスペースを完全に制御できます。
  • 編集者: ワークスペースのコンテンツを編集できますが、アクセスを共有したり、ワークスペースを削除したりすることはできません。
  • ビューアー: ワークスペースのコンテンツを表示できますが、編集やアクセスの共有はできません。
  • ローダー: データを読み込み、コネクタをワークスペースに構成できますが、編集、削除、またはアクセスの共有はできません。
  • コメント作成者: ワークスペースにコメントを追加できますが、編集、削除、アクセスの共有はできません。

ユーザーに役割を割り当てることにより、ワークスペースの所有者は、作業を効果的に実行するための適切なレベルのアクセスと権限をすべてのユーザーに確実に付与できます。

製品マニュアル

製品マニュアルを保存してください!