すべての企業は、データの使用または共有時に、セキュリティとデータ プライバシー規制を監視する必要があります。機密情報をマスクしないと、法律違反、罰金、信頼の喪失につながる可能性があります。そのため、企業はデータセット内の実際のデータを隠すデータ マスキング テクノロジーに投資しています。
課題は、マスキング後のデータの有用性を維持することです。データセットは、ソフトウェアのテスト、分析、研究に役立つように、参照整合性と関係性を維持する必要があります。重要なビジネス プロセスにおけるプライバシーと使いやすさのバランスを確保するのは難しい場合があります。幸いなことに、これに対処するための戦略を共有できます。
以下の記事では、一般的なデータ マスキングの手法、種類、使用例について説明します。また、企業が大規模なコンプライアンスを確保するのに役立つベスト プラクティスについても説明します。まずは、データ マスキングの定義から始めましょう。
Synthoガイド
合成データ生成のガイド
データマスキングとは?意味と定義
データ マスキングは、データセット内の個人を特定できる情報 (PII) をランダム化された情報に置き換えるプロセスです。データ マスキング (データ サニタイズとも呼ばれます) の主な目的は、個人や企業の機密データを保護することです。
マーケティング チームが財務レポートを作成しているとします。法律を遵守するには、顧客の名前、生年月日、社会保障番号をランダムな数字に置き換える必要があります。データ マスキング テクノロジーを使用すると、元のファイルの形式とテーブル間の関係を維持しながら、このデータを保護できます。
元のデータは、さまざまなデータ シャッフル、操作、暗号化技術によって変更されます。これは、ソース データベース内、データ転送中、またはメモリ レベルなど、データ処理のさまざまな段階で発生する可能性があります。データ マスキング プロセスは通常、次のように行われます。
- このプロセスは、 個人情報およびその他の機密データ データセット内の特定のデータ要素(名前、住所、財務情報など)を分類してタグ付けします。
- このデータは、さまざまなマスキング アルゴリズムとテクニックを通じて変換されます。データセット全体でデータの整合性と信頼性を維持するには、マスキング ルールに一貫性を持たせる必要があります。
- 変更されたデータの有効性がテストされます。マスクされたデータは適切なセキュリティ レベルを提供する必要があり、クエリ結果は元のデータの結果と比較できる必要があります。
全体的な目標は明確ですが、企業はさまざまな目的でデータ マスキング手法を使用します。
企業がデータマスキングを使用する理由
企業はデータマスキングを実施して、 データプライバシー法これらの法律は、企業が機密データを使用、保存、共有するために導入しなければならないセキュリティとプライバシーのメカニズムを管理します。
規制対象データには、個人を特定できる情報 (PII) と保護された健康情報 (PHI) が含まれます。 PIIとは、名前、住所、社会保障番号など、個人を特定するあらゆるデータを指します。PHIはPIIのサブセットであり、医療記録、 健康保険情報、および個人の治療に関連するデータ。

ほぼすべての規制は、以下の主要な法律に基づいています。
- 一般的なデータ保護規則 (GDPR)ヨーロッパと 英国-GDPR 英国で
- 健康保険の携帯性と説明責任に関する法律 米国の医療機関向けHIPAA
- ペイメントカード業界データセキュリティ標準 クレジットカード情報を扱う企業向けのPCI DSS
- カリフォルニア州消費者プライバシー法 (CCPA)および カリフォルニア州のプライバシー権法 (CPRA)
マスキング技術は、すべての直接的および間接的な識別子を排除することで、組織がこれらの規制に準拠するのに役立ちます。マスキング後、データセットは非識別化(匿名化)され、 データプライバシー法の対象外.
データ マスキングは、機密データを不正アクセスから保護するのにも役立ちます。 与えられた 業界全体でデータ侵害のコストが上昇IBM の調査によると、企業は被害を軽減するためにあらゆる努力をする必要があります。PII を隠蔽することで、サイバー犯罪者がデータベースに侵入した場合でも漏洩のリスクを防ぐことができます。
加えて、 マスキングにより安全なデータ共有が可能企業は、データのプライバシーを損なうことなく、マスクされたデータを使用してテストを実行したり、調査を行ったり、他の企業と共同作業を行ったりすることができます。
企業はデータストレージのセキュリティを確保するためにデータ マスキング プロセスを導入します。 これらのプロセスは通常、クラウド環境またはアーカイブされたデータを含む大規模なリポジトリに適用されます。
最後に、 データマスキングは顧客や利害関係者との信頼関係の構築に役立ちます積極的なデータ保護対策は、プライバシーとセキュリティに対する強い取り組みを示すものであり、企業を競合他社と差別化し、重要な顧客維持要因として機能します。
同時に、 データは使用可能でなければならないデータ マスキングが重要になる要因の 1 つは、プロセス データセットを非本番環境で使用できることです。ただし、すべてのマスキング タイプと手法で、データの元の品質を維持したり、最高の効率を保証したりできるわけではありません。

データマスキングの種類
マスキングの種類は、全体的なアプローチとコンテキストによって異なります。一般的なアプリケーション シナリオで最も一般的なマスキングの種類は次のとおりです。
静的データマスキング
静的データ マスキングは、データセット内の機密情報を変換するためのルールを適用します。マスキング ルールは事前に定義されているため、複数の環境にわたって一貫した適用が保証されます。実際のデータは元に戻せないように変更されるため、最初に元の情報が必要ないことを確認する必要があります。
名前が示すように、このタイプは時間が経っても静的なままのファイルに最適です。統計データ マスキングは、ユーザーのトレーニング、分析、またはアーカイブの目的で匿名化されたデータセットを作成するのに役立ちます。
動的データマスキング
動的データ マスキングは、ユーザーがクエリを実行したり、アクセスしたりするときに、データベース内の元の情報を変更することなく、機密データをリアルタイムで変更します。これを実装するには、どのデータ要素をどのような条件でマスキングするかを指定するロールベースのアクセス ルールを構成する必要があります。
企業は、実際の運用環境で動的データ マスキングを使用します。一例としては、顧客サービス担当者が支払い情報を表示せずに顧客レコードにアクセスする必要がある場合が挙げられます。
統計的難読化
統計データの難読化では、PII が変更されて統計的表現が作成されます。処理されたデータは、機密データを難読化しながら、データ内の元のプロパティと関係性を維持します。
統計的難読化により、企業はデータのセキュリティやプライバシーを損なうことなく詳細な分析を行うことができます。このタイプのデータ マスキングに使用される手法には、シャッフル、置換、一般化などがあります。
決定論的データマスキング
決定論的マスキングは、特定の値を常に同一の人工的な値に置き換えます。たとえば、「Jane Doe」という名前のユーザー名は常に「Jane Smith」に変更されます。
このタイプのデータ マスキングでは、通常、置換とトークン化が行われます。列とファイル間でデータの関係と参照整合性が維持されますが、プライバシー リスクが大幅に増加します。悪意のある人物が元のデータに一貫したパターンやマッピング ルールを発見した場合、情報が漏洩する可能性があります。
オンザフライデータマスキング
オンザフライ マスキングは、転送中およびリアルタイム アクセス中にメモリ内で行われます。情報は、抽出、変換、ロード (ETL) プロセスでマスキングされます。情報はソース データベースから読み取られ、難読化されてから、ターゲット データベースの新しいテーブルに挿入されます。ソース データは変更されません。
このデータ マスキング タイプは、DevOps パイプラインなどの統合または継続的デプロイメント (CD) シナリオで機密データを保護します。このツールは、開発ライフサイクルの必要な段階で PII をマスクし、次の段階に渡すことができます。
次の重要な段階は、アプリケーション シナリオに適した適切なデータ マスキング方法を選択することです。
一般的なデータマスキング手法
タイプは一般的なカテゴリを指しますが、テクニックは機密情報を変更するために使用される特定の方法とアルゴリズムを指します。最も一般的な方法は次のとおりです。
データ暗号化
暗号化は、アルゴリズム キーを使用してテキスト データを読み取り不可能な形式に変換します。正しい復号化キーの所有者だけが、暗号化されたデータを元の形式に戻すことができます。通常、企業は転送中のデータを保護するため AES (Advanced Encryption Standard) を使用し、デジタル署名を保護するため RSA (Rivest-Shamir-Adleman) を使用します。
これは、ほとんどのデータ マスキング ツールで使用される基本的な手法です。ただし、暗号化には計算能力が必要になるため、パフォーマンスのオーバーヘッドが発生する可能性があります。大規模なデータセットやリアルタイムのデータ処理を扱う場合、システムのパフォーマンスが低下する可能性があります。
置換
置換は、機密要素を、現実的な品質と使いやすさを維持した架空の値に置き換えます。さまざまなデータ タイプをサポートし、元の形式を維持します。たとえば、実名や社会保障番号をランダムな値に置き換えることができます。
欠点としては、置換によって識別可能なパターンが導入され、再識別攻撃にさらされる可能性があることです。さらに、古いツールではコンテキストや関係性が失われ、テスト中にデータに影響を及ぼす可能性があります。
シャッフリング
データ シャッフル テキストは、実際の値を維持しながら、列とデータセット内のデータを並べ替えます。これは、元の値を保持しながらトランザクション レコードのシーケンスを難読化するなど、分析目的でデータの一貫性を維持したいシナリオで特に効果的です。
課題は、シャッフルによってデータが役に立たなくなる可能性のある意図しない偏りやパターンが導入されないようにすることです。
日付熟成
エージングでは、PII を保護するためにデータセット内の日付のみを変更します。日付エージングの主な利点は、データの時系列の整合性が維持されることです。これにより、準拠した時系列分析を実行し、傾向を特定できます。
リスクに関しては、古くなると特定の種類の分析の使いやすさに影響する可能性があります。たとえば、古くなった日付は、実際の特定のイベントや外部データ ソースと一致しない可能性があります。
一般化(ビニング)
一般化では、データをより広いカテゴリにグループ化して、特定の値をわかりにくくします。たとえば、個々の年齢は年齢範囲に変換されることがあります。25 歳は 20 ~ 30 歳、つまり「20 代」になります。
これは、データセットの有用性を維持するため、分析用のデータ マスキングで最も広く使用されている手法の 1 つです。ただし、過度に一般化すると、特定の研究目的に対して情報が曖昧になりすぎる可能性があります。
マスキング
マスキングでは、機密値の一部をランダムな文字またはマスクされた文字でスクランブルします。たとえば、クレジットカード番号の最後の 4 桁を除くすべての数字を置き換えることができます。これは、顧客サービス インターフェイスや領収書の生成など、部分的なデータを表示する必要があるアプリケーションで特に役立ちます。
ただし、これは包括的なデータ マスキング ソリューションではありません。データの一部しか保護しないため、詐欺師が外部データと組み合わせて個人を特定する可能性があります。
ヌル化(ブランク化)
ヌル化は、データをヌル値またはプレースホルダーに置き換えます。たとえば、顧客の電子メール アドレスはテーブル内で「N/A」に置き換えられます。この手法は機密情報を完全に削除するため、データ セキュリティ法に準拠するのに役立ちます。
実装は簡単ですが、データ ポイント間の関係が重要となる有意義な分析には null 化は機能しません。
スクランブリング(ハッシュ)
データスクランブルは、文字列内の文字を並べ替えて元の値を隠す方法です。この方法では、長さと文字セットはそのままで、順序が変わります。たとえば、文字列 1ABCD2 スクランブルされるかもしれない DAB21C.
スクランブルは、本番データおよび非本番環境でパスワード、アカウント番号、またはその他の識別子を保護するのに役立ちます。ただし、文字列レベルでデータを難読化するだけで、他のデータ型には対応していません。さらに悪いことに、一部のデータ マスキング ツールでは、スクランブルされたデータから元の値を識別できる場合があります。
ハッシング
ハッシュは、指定されたデータまたは文字列を固定長の値 (ハッシュ) に変換します。アルゴリズムを使用して、さまざまな入力に対してリバース エンジニアリングできない一意のハッシュ値を生成します。
この方法は、インデックスを通じてアクセスできるキーと値のペアを格納するテーブルを設定するために使用されます。これにより、元の値を読み取る必要があるときにデータをすばやく取得できます。
トークン化
トークン化は、安全なトークン保管庫に保存されている元のデータを参照してランダムに生成されたトークンで本番データを置き換えます。たとえば、クレジットカード番号は次のようなトークンに置き換えられます。 T12345.
トークン化により、企業は機密データに直接アクセスすることなく支払いを処理できます。課題としては、トークン化により、トランザクション量が多い環境ではオーバーヘッドが発生する可能性があります。また、トークンを元のデータにマッピングするトークン ボールトに強力なセキュリティ対策を実装する必要があります。
いくつかの手法は他の手法よりも効果的ですが、すべての手法が一意性、属性、関係性を維持するわけではありません。企業は、コンプライアンスを確保するために、各データ タイプにどの手法を使用するかを把握する必要があります。

データ マスキング: 大規模なコンプライアンスのためのベスト プラクティス
データ量の増加により、大規模なマスキングの適用が困難になっています。組織はこれらの方法を使用して、従業員に負担をかけずに規制に準拠できます。
- マスキングが必要なデータを特定します。 場所、データベース、テーブル、列全体にわたって機密データを検索します。自然言語処理 (NLP) と光学式文字認識 (OCR) を使用すると、画像、PDF、XML、その他の非構造化データ内の機密コンテンツを検出してマスクできます。
- 一貫したルールを実装する: 環境全体で一貫したルールを持つデータ ガバナンス フレームワークを導入します。これには、データの種類と使用目的に基づいて適切なデータ マスキング手法を適用することが含まれます。たとえば、テスト データセットには置換が最適である可能性がありますが、アーカイブ ファイルにはデータ暗号化が最適な方法です。
- マスクされたデータへの安全なアクセス: 機密情報を含む元のデータには、許可された担当者のみがアクセスできる必要があります。役割ベースのアクセス制御を実装し、職務と責任に基づいて PII へのアクセスを制限して、不正アクセスのリスクを最小限に抑えます。
- データ管理プロセスと統合: データ ライフサイクル全体のデータ マスキングを自動化できます。これにより、統合、ETL、共同共有のためにデータが難読化されている場合に、セキュリティ レベルがさらに高まります。
- トレーニングおよび意識向上プログラムを提供します。 マスキング、匿名化、匿名化に関するトレーニング セッションを実施します。スタッフがプライバシー規制とセキュリティ ポリシーを十分に理解していることを確認します。
- 自動化ツールを使用して手作業を回避する: 手動によるデータマスキングは、多くの場合、時間とリソースを大量に消費します。さらに、人為的ミスのリスクも伴います。プロセスを自動化し、エラーを最小限に抑えるために、 AI搭載のPIIスキャナーを備えたツールへの投資を検討する.
- 定期的に有効性を再評価します。 マスキング手法の結果をテストして、適切なレベルのプライバシーと使いやすさが確保されていることを確認します。マスキングが元のデータの品質にどのような影響を与えたかを判断するには、さまざまな種類のデータのマスキング方法を比較するのが最適です。
組織では、ここで説明したすべてのテクニックやプラクティスが必要ではないかもしれません。実際のシナリオで実際にどれを適用すべきか、またそれをどのように行うかを理解することも同様に重要です。
データマスキング技術のユースケース
データ マスキングはリスクを軽減し、複数のデータ管理戦略をサポートします。データ マスキング技術は、次のようなさまざまなビジネス プロセスに統合できます。
- 開発とテスト: データマスキングにより、開発者とQAは 機密情報を危険にさらすことなく、現実的なデータセットを操作します。置換、シャッフル、暗号化などの技術により、データを使用可能に保ち、プライバシーを保護します。
- 第三者との連携: データマスキングにより組織はデータを共有できる 詳細な分析と調査のために。企業はプライバシー法に違反するリスクなしに協力することができます。
- ヘルスケア研究: 医療提供者は、研究目的で使用する前に患者のデータをマスクすることができます。これにより、臨床試験中に GDPR、HIPAA、およびその他の現地の規制に準拠できるようになります。
- データの収益化: 企業は貴重な匿名データを販売できる テスト、研究、アルゴリズムのトレーニングのために他の組織に提供します。
- データセキュリティの向上: データ マスキング技術は、機密データを隠蔽することで、サイバー脅威の攻撃対象領域を縮小します。これにより、データ侵害による被害を大幅に制限し、PII の漏洩を防ぐことができます。
- 災害からの回復: 迅速なリカバリはビジネス継続に不可欠ですが、バックアップ データには多くの場合、個人情報が含まれています。データ マスキングにより、権限のない第三者がバックアップ データにアクセスした場合でも、機密データが保護された状態が維持されます。
マスキングはコンプライアンスを保証するだけでなく、ビジネスに多くのメリットをもたらします。高度なツールを使用すれば、データ マスキング プロセスを大幅に自動化できます。
Syntho による自動データ マスキング
効果的なデータ マスキングは機密情報を保護し、テスト、分析、調査をサポートします。また、顧客の信頼を構築し、生産データの共有を安全にし、データ セキュリティを強化するのにも役立ちます。
手動によるデータマスキングは非効率的で、人為的ミスが発生しやすいです。時間がかかりすぎるため、不完全なマスキングや役に立たないデータになる可能性があります。対照的に、 スマートマスキングテクノロジーにより、一貫したPII保護とコンプライアンスが保証されます.

Syntho は、すべてのデータ ソースにわたって機密情報を保護するための自動データ マスキング ソリューションを提供します。 デモをお試しください 品質を損なうことなくコンプライアンスを達成するのにどのように役立つかをご覧ください。
ガイドをご覧ください
AIを使用して(機密)データを模倣し、合成データの双子を生成します
あなたの テストデータ管理ガイド
高品質のテストデータを効率的に作成および管理する
データのプライバシーとコンプライアンスの強化
テストデータ生成における手作業の削減
開発とテストを加速
ニュースレターに登録する
合成データの最新ニュースを常にチェック