サブセット化

レコードを削減して、参照整合性を維持しながら、リレーショナル データベースのより小さく代表的なサブセットを作成します。

グラフのサブセット化

組織がサブセット化を使用するのはなぜですか?

インフラストラクチャと計算コストを削減する

データ量が過剰になると、インフラストラクチャと計算コストが高くなる可能性がありますが、非運用環境でのテスト データには不要です。サブセット機能を使用すると、データの小さなサブセットを簡単に作成してコストを削減できます。

データセットアイコンの増加

テスターと開発者が管理可能なテストデータ

非運用環境で膨大なデータを管理することは、テスターと開発者にとって課題となります。テストデータが小さくなり管理しやすくなり、テストと開発のプロセスが大幅に合理化され、最終的には時間とリソースの面でサイクル全体が最適化されます。

テストデータのセットアップとメンテナンスの迅速化

データ量が少ないと、非実稼働テスト環境のセットアップとメンテナンスがより迅速かつ簡単になります。これは、複雑な IT 環境や、データ構造が頻繁に変更され、テスト データの代表性を確保するために定期的な更新と更新が必要な場合に特に関係します。

ユーザードキュメントはこちらをご覧ください

サブセット化がより高度な理由

サブセット化は「データを削除するだけ」という単純なものではない

サブセット化は、単純にデータを削除するほど簡単ではありません。これは、参照整合性を維持するために、すべての下流および上流の関連リンク テーブルを比例的にサブセット化する必要があるためです。サブセット化により、ターゲット テーブル内のデータが削除されるだけでなく、ターゲット テーブルから削除されたデータに関連する他のリンク テーブル内のデータも確実に削除されます。これにより、データ削除の一環として、テーブル、データベース、システム全体の参照整合性が確実に保持されます。

「テーブル Y」から「人物 X」を削除してデータ量を削減する, 「テーブル Y」の「人物 X」に関連するすべてのレコードを削除する必要がありますが、他の上流または下流の関連テーブル (テーブル A、B、C など) の「人物 X」に関連するすべてのレコードも削除する必要があります。

「Customers」テーブルから「Richard」を削除してデータ量を削減する, 「顧客」テーブルの「リチャード」に関連するすべてのレコードを削除する必要がありますが、他の上流または下流の関連テーブル (支払いテーブル、インシデント テーブル、保険適用範囲テーブルなど) の「リチャード」に関連するすべてのレコードも削除する必要があります。削除されました。

テーブルをまたいで

サブセット化はテーブル全体で機能します

データベース間で

サブセット化はデータベース全体で機能します

システム全体

サブセット化はシステム全体で機能します

サブセット化の活用方法

比例サブセット化

Syntho エンジンを設定して、リレーショナル データベースをサブセット化し、すべての「リンク テーブル」が「ターゲット テーブル」に基づいてサブセット化されるようにすることができます。

  • ターゲットテーブル: ユーザーは、サブセット化の開始点としてターゲット テーブルを定義できます。
    • たとえば、ユーザーは「患者テーブル」のサブセットを 5% または 500k レコードではなく 10.000k レコードに定義できます。
  • リンクされたテーブル: これらはすべて、「ターゲット テーブル」に直接的または間接的に接続されたテーブルです。テーブル間のリンクは、アレルギーをリストするターゲット テーブルが外部キー関係を通じて患者のテーブルを参照するなど直接的なものである場合もあれば、ターゲット テーブルが患者のテーブルを参照し、その患者テーブルが病院のテーブルを参照するなど間接的なものである場合もあります。
    • サブセット化により、削除されたデータに関連するすべてのレコードが 「患者テーブル」も削除されます。この例では、サブセット化により、すべての「リンク テーブル」に 5% (500 万件のレコード) に関連するデータのみが存在し、95% (10.000k - 500k = 9.500k レコード) に関連するその他のすべてのデータが削除され、参照整合性が保持されたリレーショナル データベースのより小さな代表サブセットが作成されます。

ビジネスルールに基づいたサブセット化

データ抽出のパーセンテージを指定する比例サブセット化に加え、高度な機能を使用すると、サブセット化のターゲット グループを正確に定義できます。たとえば、特定のサブセットを含めたり除外したりする基準を指定できるため、データ抽出プロセスの柔軟性と制御が向上します。

  • 60歳未満および30歳以上のお客様
  • アルス男性のお客様
販売顧客テーブル

Synthoのその他の機能

当社が提供するその他の機能をご覧ください

よくある質問

多くの組織は、大量のデータを含む実稼働環境を持っていますが、非実稼働テスト環境に大量のデータを置くことを望んでいません。したがって、データベースのサブセット化は、参照整合性が保たれた、より大きなリレーショナル データベースのより小さな代表的なサブセットを作成するために使用されます。組織はテスト データのサブ設定を利用してコストを削減し、データを管理しやすくし、セットアップとメンテナンスを迅速化します。

参照整合性は、リレーショナル データベース内のテーブル間の一貫性と正確性を保証するデータベース管理の概念です。参照整合性により、「表 1」の「人物 1」に対応するすべての値が、「表 1」および他のリンクされたテーブルの「人物 2」の正しい値に対応することが保証されます。

参照整合性の強制は、非運用環境の一部としてリレーショナル データベース内のテスト データの信頼性を維持するために重要です。これにより、データの不整合が防止され、テーブル間の関係が適切なテストとソフトウェア開発に意味があり、信頼できるものになることが保証されます。

リレーショナル データベース環境のテスト データは、使用可能にするために参照整合性を維持する必要があります。 

合成データでより良く、より速く構築

データ アクセスを解放し、開発を加速し、データ プライバシーを強化します。今すぐ当社の専門家とのセッションを予約してください。