合成データとは何ですか?
答えは比較的簡単です。 元のデータは、実際の人(クライアント、患者、従業員など)とのすべてのやり取りで収集され、すべての内部プロセスを介して収集されますが、合成データはコンピューターアルゴリズムによって生成されます。 このコンピュータアルゴリズムは、完全に新しい人工的なデータポイントを生成します。
データプライバシーの課題を解決する
合成的に生成されたデータは、元のデータとXNUMX対XNUMXの関係がない、完全に新しい人工のデータポイントで構成されます。 したがって、合成データポイントのいずれも、元のデータにトレースバックまたはリバースエンジニアリングすることはできません。 その結果、合成データはGDPRなどのプライバシー規制から免除され、データプライバシーの課題を解決および克服するためのソリューションとして機能します。
増強とシミュレーション
合成データ生成の生成的側面により、完全に新しいデータを拡張およびシミュレートできます。 これは、十分なデータがない場合(データ不足)、エッジケースをアップサンプリングしたい場合、またはデータがまだない場合のソリューションとして機能します。
ここでは、Synthoの焦点は構造化データ(Excelシートに見られるように、行と列を含むテーブルでフォーマットされたデータ)ですが、より魅力的であるため、画像を介した合成データの概念を常に説明したいと思います。
合成データには、3種類の合成データがあります。 これらの3種類の合成データは、ダミーデータ、ルールベースで生成された合成データ、および人工知能(AI)によって生成された合成データです。 XNUMX種類の合成データについて簡単に説明します。
ダミーデータはランダムに生成されたデータです(たとえば、模擬データジェネレーターによって)。
その結果、元のデータにある特性、関係、および統計パターンは、生成されたダミーデータに保存、キャプチャ、および再現されません。 したがって、ダミーデータ/モックデータの代表性は、元のデータと比較して最小限に抑えられます。
ルールベースで生成された合成データは、事前定義された一連のルールによって生成された合成データです。 これらの事前定義されたルールの例としては、特定の最小値、最大値、または平均値を持つ合成データが必要な場合があります。 ルールベースで生成された合成データで再現したい特性、関係、および統計パターンは、事前に定義する必要があります。
その結果、データ品質は事前定義された一連のルールと同じくらい良好になります。 これは、高いデータ品質が重要である場合に課題をもたらします。 まず、合成データにキャプチャされるルールの限られたセットのみを定義できます。 さらに、複数のルールを設定すると、通常、ルールが重複して競合することになります。 さらに、関連するすべてのルールを完全に網羅することは決してありません。 さらに、あなたが気づいてさえいない関連するルールがあるかもしれません。 そして最後に(そして忘れないでください)、これはあなたに多くの時間とエネルギーを要し、非効率的な解決策をもたらします。
名前からわかるように、人工知能(AI)によって生成された合成データは、人工知能(AI)アルゴリズムによって生成された合成データです。 AIモデルは、すべての特性、関係、および統計パターンを学習するために、元のデータでトレーニングされます。 その後、このAIアルゴリズムは完全に新しいデータポイントを生成し、元のデータセットから特性、関係、統計パターンを再現するようにそれらの新しいデータポイントをモデル化することができます。 これは、私たちが合成データツインと呼んでいるものです。
AIモデルは、元のデータを模倣して、元のデータであるかのように使用できる合成データの双子を生成します。 これにより、AIで生成された合成データをテストデータ、デモデータ、または分析として使用するなど、AIで生成された合成データを元の(機密)データを使用する代わりに使用できるさまざまなユースケースのロックが解除されます。
ルールベースで生成された合成データと比較すると、関連するルールを調べて定義する代わりに、AIアルゴリズムがこれを自動的に行います。 ここでは、あなたが知っている特性、関係、統計パターンだけでなく、あなたが知らない特性、関係、統計パターンもカバーされます。
ユースケースに応じて、ダミーデータ/モックデータ、ルールベースで生成された合成データ、または人工知能(AI)によって生成された合成データの組み合わせをお勧めします。 この概要は、使用する合成データのタイプの最初の指標を提供します。 Synthoはそれらすべてをサポートしているので、私たちの専門家に連絡して、ユースケースを深く掘り下げてください。