現実世界のデータを模倣したり、特定のシナリオをシミュレートしたりすることを目的として、事前定義されたルールと制約に基づいて合成データを作成します。
ルールベースで生成された合成データとは、事前定義された (ビジネス) ルールと制約に従って、人工またはシミュレートされた合成データを作成するプロセスを指します。このアプローチには、合成データを生成するための特定のガイドライン、条件、関係の定義が含まれます。組織がルールベースの合成データを使用する理由:
データが限られている場合、またはデータがまったくない場合、新しい機能を開発するときに代表的なデータの必要性が非常に重要になります。ルールベースの合成データにより、データを最初から生成でき、テスターと開発者に重要なテスト データが提供されます。
ルールベースの合成データは、拡張された行や列を生成することでデータを強化できます。これを使用して追加の行を生成し、より大きなデータセットを簡単かつ効率的に作成できます。さらに、ルール ベースの合成データを使用してデータを拡張し、既存の列に依存する可能性がある追加の新しい列を生成することができます。
ルールベースのアプローチは、多様なデータ形式と構造に適応する柔軟性とカスタマイズを提供し、特定のニーズに応じて合成データを完全にカスタマイズできるようにします。さまざまなシナリオをシミュレートするルールを設計できるため、データを生成するための柔軟な方法になります。
ルールベースの合成データは、事前定義されたルールに準拠したデータの生成、不一致の修正、欠損値の埋め込み、エラーの削除によってデータ クレンジングを容易にし、データセットの整合性と品質が確実に維持されます。これにより、ユーザーはさらに高品質のデータを入手できるようになります。
ルールベースの合成データ生成は、プライバシー上の懸念や法的制限により実際の個人データを使用できないシナリオで特に役立ちます。代替データとして合成データを作成することで、組織は機密情報を侵害することなくテストと開発を行うことができます。
当社のプラットフォームは、計算列関数を介したルールベースの合成データ生成をサポートしています。計算列関数を使用すると、単純な算術計算から複雑な論理計算や統計計算まで、データやその他の列に対して幅広い操作を実行できます。数値の四捨五入、日付の一部の抽出、平均の計算、テキストの変換など、これらの関数は必要なデータを正確に作成する多用途性を提供します。
以下に、計算列関数を使用してルールベースの合成データを生成する典型的な例をいくつか示します。