合成データとは何ですか?

序言

合成データとは何ですか?

答えは比較的簡単です。 元のデータは、実際の人(クライアント、患者、従業員など)とのすべてのやり取りで収集され、すべての内部プロセスを介して収集されますが、合成データはコンピューターアルゴリズムによって生成されます。 このコンピュータアルゴリズムは、完全に新しい人工的なデータポイントを生成します。

データプライバシーの課題を解決する

合成的に生成されたデータは、元のデータとXNUMX対XNUMXの関係がない、完全に新しい人工のデータポイントで構成されます。 したがって、合成データポイントのいずれも、元のデータにトレースバックまたはリバースエンジニアリングすることはできません。 その結果、合成データはGDPRなどのプライバシー規制から免除され、データプライバシーの課題を解決および克服するためのソリューションとして機能します。

増強とシミュレーション

合成データ生成の生成的側面により、完全に新しいデータを拡張およびシミュレートできます。 これは、十分なデータがない場合(データ不足)、エッジケースをアップサンプリングしたい場合、またはデータがまだない場合のソリューションとして機能します。

ここでは、Synthoの焦点は構造化データ(Excelシートに見られるように、行と列を含むテーブルでフォーマットされたデータ)ですが、より魅力的であるため、画像を介した合成データの概念を常に説明したいと思います。

そうすることで、次のセクションに2つの画像があります。 これらから、左の画像はWim Kees Janssen(CEO)のオリジナル写真であり、フォトカメラで撮影されています。 しかし、右側には、実世界には存在しない人物のコンピューターアルゴリズムによって生成された画像が表示されます。 これが私たちが合成画像と呼んでいるものです。

元データ

これは写真です 写真カメラで撮影 Synthoの共同創設者のXNUMX人であるWimKeesJanssenの 

これは、水泳キーのヤンセンの写真です。

合成データ

これは写真です コンピュータアルゴリズムによって生成されます 現実の世界に存在しない人の。

これは合成データ画像です。

タイプ

どのような種類の合成データが存在しますか?

合成データには、3種類の合成データがあります。 これらの3種類の合成データは、ダミーデータ、ルールベースで生成された合成データ、および人工知能(AI)によって生成された合成データです。 XNUMX種類の合成データについて簡単に説明します。

ダミーデータ/モックデータ

ダミーデータはランダムに生成されたデータです(たとえば、模擬データジェネレーターによって)。

その結果、元のデータにある特性、関係、および統計パターンは、生成されたダミーデータに保存、キャプチャ、および再現されません。 したがって、ダミーデータ/モックデータの代表性は、元のデータと比較して最小限に抑えられます。

  • いつ使用するか:直接識別子(PII)を置き換える場合、または(まだ)データがなく、ルールの定義に時間と労力を費やしたくない場合。

ルールベースで生成された合成データ

ルールベースで生成された合成データは、事前定義された一連のルールによって生成された合成データです。 これらの事前定義されたルールの例としては、特定の最小値、最大値、または平均値を持つ合成データが必要な場合があります。 ルールベースで生成された合成データで再現したい特性、関係、および統計パターンは、事前に定義する必要があります。

その結果、データ品質は事前定義された一連のルールと同じくらい良好になります。 これは、高いデータ品質が重要である場合に課題をもたらします。 まず、合成データにキャプチャされるルールの限られたセットのみを定義できます。 さらに、複数のルールを設定すると、通常、ルールが重複して競合することになります。 さらに、関連するすべてのルールを完全に網羅することは決してありません。 さらに、あなたが気づいてさえいない関連するルールがあるかもしれません。 そして最後に(そして忘れないでください)、これはあなたに多くの時間とエネルギーを要し、非効率的な解決策をもたらします。

  • いつ使用するか:データがない場合(まだ)

人工知能(AI)によって生成された合成データ

名前からわかるように、人工知能(AI)によって生成された合成データは、人工知能(AI)アルゴリズムによって生成された合成データです。 AIモデルは、すべての特性、関係、および統計パターンを学習するために、元のデータでトレーニングされます。 その後、このAIアルゴリズムは完全に新しいデータポイントを生成し、元のデータセットから特性、関係、統計パターンを再現するようにそれらの新しいデータポイントをモデル化することができます。 これは、私たちが合成データツインと呼んでいるものです。

AIモデルは、元のデータを模倣して、元のデータであるかのように使用できる合成データの双子を生成します。 これにより、AIで生成された合成データをテストデータ、デモデータ、または分析として使用するなど、AIで生成された合成データを元の(機密)データを使用する代わりに使用できるさまざまなユースケースのロックが解除されます。

シンソエンジンによるAIによる合成データ生成

ルールベースで生成された合成データと比較すると、関連するルールを調べて定義する代わりに、AIアルゴリズムがこれを自動的に行います。 ここでは、あなたが知っている特性、関係、統計パターンだけでなく、あなたが知らない特性、関係、統計パターンもカバーされます。

  • いつ使用するか:模倣するための入力として、またはスマートデータの生成と拡張機能の開始点として使用するための(一部の)データがある場合

サマリー

使用する合成データの種類は何ですか?

ユースケースに応じて、ダミーデータ/モックデータ、ルールベースで生成された合成データ、または人工知能(AI)によって生成された合成データの組み合わせをお勧めします。 この概要は、使用する合成データのタイプの最初の指標を提供します。 Synthoはそれらすべてをサポートしているので、私たちの専門家に連絡して、ユースケースを深く掘り下げてください。

合成データの種類は何ですか
synthoガイド-AIで生成された合成データプラットフォーム

合成データガイドを今すぐ保存してください!