PII 列スキャナーは、浅いスキャンまたは AI を利用した深いスキャンを介して、ユーザーのデータベース内の個人を特定できる直接的な情報 (PII) を自動的に検出する機能です。 また、AI エンジンは、各 PII エンティティのモッカーを代替として提案します。
オープン テキストの場合、Syntho の PII スキャナー機能は、組織がデータベース内だけでなくオープン テキスト データ内の個人を特定できる情報 (PII) を直接識別するのに役立ちます。 識別された PII エンティティは、削除するか、エンティティ プレースホルダーまたはモック値で置き換えることができます。
モック データは、直接の識別子を置き換えるために、実際の情報または機密情報の代わりになります。 高度なモッカーを使用して、ゼロから、または事前定義されたルールに基づいて合成データを生成し、データ生成プロセスを自動化して、必要な時間と労力を削減できます。
Syntho は、合成データ生成ジョブとソースおよびターゲット環境への接続を簡単に構成するためのすぐに使用できるコネクタを提供し、20 を超えるデータベースおよび 20 のファイルシステム コネクタと統合して、 end-to-end 統合的アプローチ。
データベースのサブセット化は、参照整合性が保持された、データベースのより小さな、またはより大きな代表的なサブセットを作成するプロセスです。 サブセット化は、より小さなデータ サブセットを作成することで、企業がデータを拡張したり、計算コストを削減したりするのに役立ちます。
ワークスペースの共有により、組織は合成データの使用を共同で拡大できます。 これにより、チームは同じワークスペース内で共同または個別に作業でき、役割に基づいてさまざまなレベルのアクセスと権限を使用できます。
PII 列スキャナー機能により、ユーザーはデータベース内の直接的な個人識別情報 (PII) を自動的に検出できます。 この機能には、(1) 浅いスキャン (列名を含むメタデータのみ) と (2) 深いスキャン (メタデータ + およびデータ自体) の XNUMX つのスキャン オプションがあります。
浅いスキャンは、正規表現ルールを適用して、列名に基づいて各列に含まれる PII のタイプを推測します。
ディープ スキャンは、各列の下のデータもスキャンして、潜在的な PII エンティティを検出します。 ただし、このスキャンは時間がかかり、リソースを大量に消費します。
PII として識別されるすべての列は、[PII] タブの PII エンティティのリストに表示され、[ジョブ設定] タブの列ヘッダーに PII というラベルが付けられます。
Syntho の AI エンジンは、PII エンティティごとに適切なモッカーを自動的に提案できるため、ユーザーの時間と労力を節約できます。 この機能を使用することで、機密性の高い元の PII が保護され、合成データに表示されず、複数テーブル データベースの参照整合性が保持された代表的なモック データに置き換えられることを確認できます。
ユーザーは、浅いスキャンや深いスキャンの代わりに、PII エンティティを手動で識別することもできます。 ユーザーは、自動化された推奨モッカーの代わりに手動でモッカーを適用することもできます。 ただし、手作業を軽減し、大量のデータを高速に処理できるように、AI が作業を行うようにプラットフォームを最適化しました。
Syntho Engine の PII スキャナー機能は、組織がデータベース内で個人を特定できる情報 (PII) を直接識別するのに役立ちますが、現在はオープンテクストでも識別できます。 PII には、名前、住所、社会保障番号、電子メール アドレス、電話番号など、個人を直接特定できる情報が含まれます。 PII スキャナーを使用すると、GDPR、HIPAA、CCPA など、個人情報を保護する手段が必要なオープンテクストのデータ保護規制に組織が準拠するのに役立ちます。
識別された PII は、エンティティ、モッカー、またはデフォルト値によって削除、置換できます
PII が識別されると、Syntho Engine は情報を保護する XNUMX つの方法を提供します。
PII をエンティティ プレースホルダーに置き換えると、機密情報を保護しながらデータの構造を維持できます。 PII をモック値に置き換えると、機密情報が、元のデータの形式を維持する架空のデータに置き換えられます。
PII スキャナー機能を使用すると、オープン テキストでも機能するソリューションを利用できます。
私たちのプラットフォームは、合成データをゼロから、または事前定義されたルールに基づいて生成できる、幅広い高度なモッカーを提供します。 これらのモッカーを使用して、機械学習モデルのテストまたはトレーニング用の現実的なデータの大規模なデータセットを生成できます。 高度なモッカーは、データ生成プロセスを自動化することで、生成されるデータの一貫性と正確性を確保しながら、大規模なデータセットの作成に必要な時間と労力を削減するのに役立ちます。 さらに、高度なモッカーは、特定のユース ケースやシナリオに合わせてカスタマイズできるため、合成データを生成するための多用途のツールになります。
Syntho Engine に含まれているさまざまなすぐに使えるコネクタをサポートしているため、合成データ生成ジョブを簡単に構成し、Syntho Engine をソース環境とターゲット環境に接続できます。 その結果、Syntho の同僚は元のデータを見ることはなく、Syntho Engine と保存環境にアクセスする必要もありません。
Syntho は、すべての主要なデータベースおよびファイルシステムと統合します。
データベースのサブセット化は、参照整合性が保持された、より大きな (より小さな) データベースのより小さな (より大きな) 代表的なサブセットを作成するプロセスです。 これは、Syntho などのソフトウェアを構成して、特定の割合または選択したデータを含めることによって行われます。 より正確な分析のためにデータを拡張する必要がある場合でも、より小さなデータ サブセットを作成して計算コストを削減する必要がある場合でも、Syntho Engine のジェネレーティブ AI テクノロジを使用すると、目標を簡単に達成できます。 高度なサブセット化機能により、プライバシー、パフォーマンス、または正確性を損なうことなく、ビジネスを強化するために必要なデータを取得できます。
ビジネス ニーズにより大きなデータセットまたはデータベースが必要ですか? Syntho の Generative AI Syntho Engine を使用すると、既存のデータを簡単にサブセット化し、ニーズに合わせてより大きなデータセットを作成できます。 より正確な分析を実行する場合でも、より多くのデータを使用して機械学習モデルをトレーニングする場合でも、Syntho Engine が対応します。
一方、大量のデータを処理すると、特に本番環境でテストする場合に、計算コストが高くなる可能性があります。 そこで登場するのが Syntho Engine です。そのサブセット化機能を使用すると、データの小さなサブセットを簡単に作成して、正確なテスト結果を取得しながら計算コストを削減できます。
ワークスペースの共有は、合成データを扱う複数のチームまたは個人が関与する、合成データの使用を拡大しようとしている組織にとって価値のある機能です。 ワークスペースの共有は、ワークスペースの所有者と編集者がワークスペース内の他のユーザーに役割を委任できるようにする機能です。 この機能により、個人に特定のアクセス権と許可を与えることで、コラボレーションが可能になり、チーム内のワークフローが改善されます。
ワークスペースの共有は、合成データの使用を大規模に拡大しようとしている組織に特に関連しています。 このような組織では、複数のチームまたは個人が、データ生成およびモデリング プロセスのさまざまなユース ケースやさまざまな側面に取り組んでいる可能性があります。 ワークスペースの共有を利用することで、これらのチームまたは個人が同じワークスペースで共同作業を行うことができ、全員が一緒に、または別々に作業できるようになります。
ワークスペースをユーザーと共有する場合、次のロールから選択できます。
ユーザーに役割を割り当てることにより、ワークスペースの所有者は、作業を効果的に実行するための適切なレベルのアクセスと権限をすべてのユーザーに確実に付与できます。