すべての投稿を見る

参照整合性はテストデータ管理にとってなぜ重要ですか?

記事の著者
シャヒン・フセングル
シャヒン・フセングル カスタマーサービスエンジニア&データサイエンティスト
目次

正確で準拠したテスト データのプールを確立することは、多くの企業にとって依然として困難です。これは、データセットを変更するプライバシー ツールによって参照整合性が損なわれる可能性があるためです。しかし、参照整合性はなぜ重要なのでしょうか。

この質問に答えるには、親テーブル、外部キー ルール、匿名化などの概念について説明する必要があります。整合性がなければ、開発パイプラインを混乱させたり、システム クラッシュを引き起こしたりする可能性のある欠陥のあるデータが生成されてしまう可能性があります。

この記事では、参照整合性の重要性をわかりやすく説明します。参照整合性の意味とテスト データへの影響について説明します。プライバシー法に完全に準拠しながら整合性を維持するための参照整合性ルールについて説明します。

Synthoガイド

合成データ生成のガイド

参照整合性とは何ですか?

実際のデータは、現実世界の活動ややり取りから直接収集された実際の出来事を捉えたものです。実際のデータは、運用システム、ベンダー、公開記録、または運用情報を含むその他のデータセットから取得されます。たとえば、実際の個人や取引に関する詳細を含む 10 年前のバックアップや、テスト目的で取得された一連の公開記録などが含まれる場合があります。

実際のデータは実際のイベントややり取りを反映するため、精度と信頼性が不可欠なアプリケーションにとって非常に重要です。データ ポイントは現実世界の状況を正確に表すため、分析や機械学習モデルのトレーニングの信頼できる基盤となります。

しかし、実際のデータには課題があります。実際のデータには、現実世界の雑然とした性質を反映したノイズ、矛盾、バイアスが含まれることがよくあります。実際のデータの管理には、プライバシーとコンプライアンスに関する重大な懸念も生じます。 個人を特定できる情報(PII) 厳しい規制の下で慎重に取り扱われなければなりません。

リアルデータの長所と短所

参照整合性は、テーブルとデータベース内のデータの正確性と一貫性を保証するガバナンス プロパティです。その仕組みは次のとおりです。

リレーショナル データベースでは、データは主キーと外部キーを通じて接続を維持します。

  • 主キー 主要な参照ポイントとして機能する、1 つのテーブル内の各レコードの一意の識別子です。
  • 外部キー 他の行やテーブルを識別するのに役立つフィールドのコレクションであり、基本的にデータ間のリンクを強制します。

管理システムは、これらのキー間の関係を管理するルールを使用して、データの整合性を強化します。主な参照整合性制約には、次のものがあります。

  • ルールを挿入: 外部キー (子テーブル) が主キー (親テーブル) の既存の値と一致しない場合は、外部キー (子テーブル) を持つレコードを追加することはできません。
  • 更新ルール: 子テーブルのレコードが更新されない場合は、親テーブルのレコードが更新されないようにします。
  • 削除ルール: 子テーブルに一致するレコードが含まれている場合、親テーブルからデータを削除することはできません。

技術的な説明は以上です。次に、テスト データにとって整合性がなぜ重要なのかを見てみましょう。

データベース管理において参照整合性が重要なのはなぜですか?

参照整合性がなぜ重要なのかを視覚的に説明する

参照整合性は、テスト データ管理ツールを含むデータベース管理システムの信頼性を保証します。このフレームワークにより、データを変更または移行してもテーブル間の関係の一貫性が保たれます。

データの整合性により、コンプライアンス チームは規制要件を遵守しながら高いデータ品質を維持できます。すべての企業は、一般データ保護規則 (GDPR)、医療保険の携行性と責任に関する法律 (HIPAA)、カリフォルニア州消費者プライバシー法 (CCPA) などのデータ保護法に従う必要があります。これらの法律では、企業が顧客の個人識別情報 (PII) を保護することが義務付けられています。

テストのためにデータを自由に使用するために、 企業はプライバシー強化技術(PET)を使用する データから PII を削除するツールもあります。ここで問題が発生します。データの整合性を維持する手段がなければ、次のような不整合やエラーが発生する可能性があります。

  • 孤立したレコード(存在しない親レコードを参照する子レコード)
  • 壊れたデータ関係
  • 競合および重複(冗長)データ。
  • 重要なデータが欠落しています

さらに、GDPR では、仮名化されたデータは依然として個人データとみなされるため、法的リスクを回避するには参照整合性を維持することが不可欠です。対照的に、匿名化されたデータは、完全に匿名化された後は GDPR の義務から免除されます。参照整合性がなければ、一貫性のないレコードや孤立したレコードによってコンプライアンス違反、データ関係の破壊、データの重複が発生し、システム障害や重要な情報の損失につながる可能性があります。

データ整合性は、データベースの正規化に似た概念です。どちらもテーブル内のデータ品質を維持するのに役立ちます。ただし、データベースの正規化は冗長性と依存性を最小限に抑えるようにデータを整理することに重点を置いているのに対し、参照整合性は要素の一貫性を保ちます。

整合性が欠けていると、システムクラッシュ、アプリケーションエラー、予期しないシステム動作が発生する可能性があります。また、顧客データの関係が失われると、ビジネスに影響が出る可能性もあります。

参照整合性はテスト データにどのような影響を与えますか?

現実的なテスト環境では、参照整合性の維持が必要です。理想的には、開発者とテスト担当者は、運用データの構造を反映したデータを必要とします。ただし、一般的に使用される PET は、テーブル間の関係を乱す可能性があります。

ほとんどの問題は、主キーと外部キーの値の間のリンクが壊れていることに起因します。たとえば、アプリケーションがテスト中に関連データを取得できず、診断が困難なエラーが発生することがあります。また、変更されたテスト データに欠落した値や不整合があるために、予期しない動作が発生することもあります。

これらの問題は、データの仮名化、匿名化、サブセット化などの最新の技術によって発生する可能性があります。

仮名化データと匿名化データの参照整合性

データの仮名化と匿名化ツール テスト用の準拠データを生成するためによく使用されます。データを匿名化しながら参照データの整合性を維持すると、テスト中に個人情報が不正アクセスされたり漏洩したりするのを防ぐのに役立ちます。

偽名化 は、PII、保護された健康情報、およびその他の財務情報を模擬データ(仮名)に置き換える匿名化ツールです。 匿名化ツール より高度な技術を使用して直接識別子と間接識別子を変換します。

これらの技術は両方ともリスクを伴います。仮名化されたデータは、制御された条件下(通常は復号化キーなどの追加情報を使用)で元に戻すことができます。匿名化されたデータであっても、元の情報を復元するために悪用される可能性があります。

一貫したマッピングを維持するのは複雑です特に、複雑なテーブルを持つ大規模なデータベースでは、匿名化や仮名化によってキーとして使用される識別子が変更されると、関係が損なわれる可能性があります。

匿名化(仮名化)されたデータで参照整合性を強制する方法:…

匿名化(仮名化)されたデータで参照整合性を強制する方法:

匿名化仮名化データにおける参照整合性の強化方法の視覚化
  • 決定論的なマスキング手法を使用します。 決定論的マスキングは、機密データを一貫した値に置き換えます。たとえば、「John D.」の ID が顧客テーブル全体で一貫して「ABCDE」にマスキングされている場合、関係はそのまま維持されます。
  • 識別子に暗号化またはハッシュ関数を適用します。 キー識別子を削除するのではなく、暗号化またはマスクします。これにより、機密情報を保護しながら整合性を維持できます。
  • マップの要素と関係: 元のデータと変更されたデータ (通常は仮名化) 間の参照として使用するための安全なマッピング テーブルを保持します。
  • 施行 外部キー制約匿名化中に整合性を自動的にチェックして強制するデータベース管理システムを使用します。

整合性エラーが見つかった場合は、対処する必要があります。孤立したレコードを削除し、不足している主キーを追加し、外部キーの値を更新して、問題が複雑化しないようにします。

サブセット化における参照整合性

サブセット化により実稼働データベースを変換 テスト用にデータセットをより小さく表現可能な部分に分割します。この手法は、データベースの正規化にも使用されます。

理想的には、大きなデータ セットは、扱いやすい代表的な部分に縮小されます。ただし、特定のレコードのみを選択すると、関連テーブル内の外部キー関係が壊れる可能性があります。例としては、存在しない顧客テーブルを参照するトランザクション レコードが挙げられます。

サブセット化で参照整合性を強制する方法:

  • カスケードアクションに制約を適用します。 不整合を回避するには、DELETE CASCADE および UPDATE CASCADE に制約を使用します。これにより、子セット内の対応する外部キーが親セットとともに自動的に削除または更新されるようになります。
  • ACID準拠のトランザクションを優先します。 原子性、一貫性、独立性、永続性 (ACID) フレームワーク内でサブセット化操作を実行します。サブセット化プロセスの一部が失敗すると、トランザクションはロールバックされます。
  • 監視ツールを実装する: 企業は、参照の欠落や整合性違反を検出し、時間どおりに対処する自動ツールを使用する必要があります。

サブセット化機能を備えた合成データ生成プラットフォームなどの専用ツールを使用すると、企業は手作業と不整合のリスクを大幅に削減できます。

Syntho の合成データ プラットフォームが整合性を強化する方法

合成データは、実際の機密情報を使用せずに実際のデータの特性をシミュレートする人工的に生成された模擬データです。

合成データ ツールは、実際のデータセットに基づいて、最初から模擬データを生成します。Syntho などのプラットフォームは、元のデータの基礎となる分布、相関関係、構造をキャプチャする高度なアルゴリズムを活用します。これにより、次のようなビジネス上のメリットがもたらされます。

  • テーブル間の一貫性: 私たちのモデルは主キーと外部キーの関係を維持し、 すべてのデータベースは一貫性を保つ.
  • 包括的なコンプライアンス: 匿名化(仮名化)技術とは異なり、合成データはゼロから作成されます。直接的または間接的な識別子は含まれていないため、生成されたデータセットは規制監視の対象外となります。
  • 高品質のデータ: 合成データは、現実世界のデータ条件下でのみ表面化する可能性のある問題を発見するのに役立ちます。
  • 組み込み機能: チームはさまざまな機能を使用して準拠したテストデータを作成できます。特に、 PIIスキャナー テーブル内のPIIを検出し、 サブセット化機能 小規模な代表データセットを作成できます。

最後に、Syntho は他の自動化ソフトウェアやデータベース管理ツールと統合されます。当社の合成生成ツールを CI/CD パイプラインに組み込むことで、チームは必要に応じて最新のテスト データを作成できます。

まとめ:

これで、参照整合性がデータベース管理のあらゆる側面で重要である理由が明らかになったはずです。匿名化方法によっては整合性が損なわれ、データの有用性が低下する可能性があります。

幸いなことに、企業には整合性を維持する手段があります。高度なアルゴリズムと特殊なツールにより、準拠し、機能的で、エラーのないテスト データを大量に生成できます。

当社の合成生成プラットフォームについてさらに詳しく知りたいですか? 製品ドキュメント or デモについてはお問い合わせください.

あなたの テストデータ管理ガイド

高品質のテストデータを効率的に作成および管理する

データのプライバシーとコンプライアンスの強化

テストデータ生成における手作業の削減

開発とテストを加速

ニュースレターに登録する

合成データの最新ニュースを常にチェック