アップサンプリング

データ数を増やし、不均衡なデータセットを修正し、モデルのパフォーマンスを向上させる

アップサンプリングの表の図解 - syntho

アップサンプリングの主な利点

データに基づく意思決定を強化し、AIモデルのパフォーマンスを向上させる

バランスデータセットアイコン

不均衡なデータセットのバランスをとる

現実世界のデータセットの多くには不均衡があり、一部のクラスやカテゴリが過小評価されています。アップサンプリングは、これらの過小評価されているクラスのサンプル数を人工的に増やすことで、よりバランスのとれた公平なモデルを実現します。

モデルパフォーマンスの強化アイコン

モデルのパフォーマンスの向上

データセットのバランスが崩れると、AI モデルはより一般的なクラスに偏ってしまう可能性があります。アップサンプリングにより、モデルがすべてのクラスに十分に露出されるようになり、さまざまなシナリオにわたって一般化して正確な予測を行う能力が向上します。

トレーニング効率の向上アイコン

トレーニング効率の向上

データセットのバランスが取れていれば、トレーニング中にモデルがより速く収束し、必要な時間と計算リソースが削減されます。この効率性は、AI ソリューションを迅速に導入したい組織にとって非常に重要です。

過剰適合の緩和アイコン

過剰適合の緩和

オーバーフィッティングは、モデルが実際の信号ではなくトレーニング データ内のノイズを学習するときに発生します。アップサンプリングを使用することで、組織はモデルがより一般的なパターンを学習するのに役立つより堅牢なトレーニング セットを提供でき、オーバーフィッティングのリスクを軽減できます。

データセットアイコンの増加

合成データ生成の有効化

アップサンプリングでは、多くの場合、過小評価されているクラスに似た合成データ ポイントが作成されます。これにより、データセットのバランスがとれるだけでなく、モデルが学習できる新しいバリエーションが追加され、モデルの適応性と回復力が向上します。

ユーザードキュメントはこちらをご覧ください

合成データがより進歩している理由

合成データは多様性を向上させ、稀なイベントを管理し、過剰適合を減らす

稀な出来事への対処

まれなイベントや状況がデータ内で十分に表現されていない場合は、これらのシナリオを含むように合成データを特別に生成し、モデルがそれらを効果的に処理できるようにトレーニングすることができます。

過剰適合の緩和

単純なオーバーサンプリングなどのオーバーサンプリング手法は、既存のサンプルを単純に複製し、モデルが一般化するのではなく記憶するため、オーバーフィッティングにつながる可能性があります。合成データを使用すると、より多様で現実的なバリエーションを導入できるため、オーバーフィッティングのリスクが軽減されます。

多様性の強化

合成データ生成により、元のデータセットには存在しないが妥当な機能の新しい組み合わせを導入できるため、トレーニング データの多様性が高まり、モデルの堅牢性が向上します。

データのスパース性の処理

実際のデータが極めてまばらな状況では、複製できる既存のサンプルの可用性に依存するオーバーサンプリング手法よりも、合成データの方が効果的にギャップを埋めることができます。

アップサンプリングの適用方法

データの量と多様性を高める合成データを作成する

3ステップでデータを統合

1. テーブルを識別する

合成セクションに必要なテーブルを特定して選択します

2. 金額を定義する

生成したい行数を設定します

3. 生成を開始する

生成を開始すると、アップサンプリングプロセスが完了します

Synthoのその他の機能

当社が提供するその他の機能をご覧ください

よくある質問

アップサンプリングは、データセット内のデータ サンプルの数を増やし、不均衡なデータを修正してモデルのパフォーマンスを向上させることを目的としています。オーバーサンプリングとも呼ばれるこの手法は、すべてのクラスのサイズが等しくなるまで少数クラスからデータを追加することで、クラスの不均衡に対処します。Python の scikit-learn と Matlab はどちらも、アップサンプリング手法を実装するための組み込み関数を提供しています。

データ サイエンスにおけるアップサンプリングは、デジタル信号処理 (DSP) におけるアップサンプリングとよく間違えられるので注意してください。どちらのプロセスもより多くのサンプルを作成しますが、実行方法が異なります。DSP では、アップサンプリングは、より高いサンプリング レートを補間することにより、離散時間信号から周波数領域でより多くのサンプルを生成します。これは、データ バランシング アップサンプリングとは異なり、元の信号にゼロを挿入し、補間にローパス フィルターを使用することで行われます。

同様に、データ バランスのアップサンプリングは、画像処理のアップサンプリングとは異なります。画像処理では、高解像度の画像は、計算を高速化するために最初に解像度が下げられ (ピクセルが削除される)、次に畳み込みによって画像が元の寸法に戻されます (ピクセルが戻される)。

[ソース]

アップサンプリングは、データセット内の不均衡に対処する効果的な方法です。不均衡なデータセットは、90 つのクラスが実際の母集団に比べて著しく過小評価され、意図しない偏りが生じる場合に発生します。たとえば、画像を猫または犬に分類するようにトレーニングされたモデルを考えてみましょう。データセットが 10% の猫と 90% の犬で構成されている場合、猫が過剰に評価されます。すべての画像に対して「猫」を予測する分類器は、猫に対して 0% の精度を達成しますが、犬に対しては XNUMX% の精度を達成します。この不均衡により、分類器は少数派クラスを犠牲にして多数派クラスの精度を優先します。同じ問題が複数クラスのデータセットで発生する可能性があります。

アップサンプリングは、過小評価されている少数派クラスのサンプル数を増やすことでこの問題を軽減します。元の少数派クラスの特性に基づいて新しいデータ ポイントを合成し、すべてのクラスでサンプルの比率が均等になるようにすることでデータセットのバランスをとります。

各クラスのデータ ポイント数をプロットすると不均衡が明らかになりますが、モデルへの影響の範囲は示されません。パフォーマンス メトリックは、アップサンプリングによってクラスの不均衡がどの程度修正されるかを評価するために不可欠です。これらのメトリックは、1 つのクラス (通常は正のクラス) が少数で、もう 1 つのクラス (負のクラス) が多数であるバイナリ分類でよく使用されます。パフォーマンスを評価するための 2 つの一般的なメトリックは、受信者動作特性 (ROC) 曲線と精度-再現率曲線です。

Advantages

  • 情報損失なし: 多数派クラスからデータ ポイントを削除するダウンサンプリングとは異なり、アップサンプリングでは新しいデータ ポイントが生成され、情報の損失が回避されます。
  • 低コストでデータを増やす: アップサンプリングは、観察によってのみデータを取得できる場合に、オンデマンドでデータセットのサイズを増やすのに特に効果的であり、多くの場合唯一の方法です。たとえば、特定の病状はあまりにもまれであるため、より多くのデータを収集することはできません。

デメリット

  • オーバーフィットアップサンプリングでは、既存の少数クラス データに基づいて新しいデータを作成するため、分類器がデータに過剰適合する可能性があります。アップサンプリングでは、既存のデータが現実を適切に捉えていることを前提としています。そうでない場合、分類器は十分に一般化できない可能性があります。
  • データノイズ: アップサンプリングによりデータ内のノイズ量が増加し、分類器の信頼性とパフォーマンスが低下する可能性があります。 2
  • 計算の複雑さデータ量が増えると、分類器のトレーニングにかかる​​計算コストが高くなり、クラウド コンピューティングを使用する場合に問題になる可能性があります。2

ランダムオーバーサンプリング

ランダム オーバーサンプリングでは、少数クラスのデータ ポイントをランダムに複製して、多数クラスのサイズと一致するまで繰り返します。ランダム オーバーサンプリングはブートストラッピングに似ていますが、ブートストラッピングではすべてのクラスから再サンプリングするのに対し、ランダム オーバーサンプリングでは少数クラスのみに焦点を合わせるという点で異なります。したがって、ランダム オーバーサンプリングはブートストラッピングの特殊な形式と見なすことができます。

ランダム オーバーサンプリングはシンプルですが、限界があります。重複したデータ ポイントを追加するだけなので、過剰適合につながる可能性があります。ただし、実装が簡単で、データについて想定する必要がなく、アルゴリズムが簡単なため時間の計算量が少ないなど、いくつかの利点があります。

 

スモート

2002 年に提案された合成少数派オーバーサンプリング手法 (SMOTE) は、少数派クラスの既存のポイントから新しいデータ ポイントを合成します。このプロセスには次のものが含まれます。

  1. すべての少数クラスのデータ ポイントに対して K 個の最も近い近傍を検索します (K は通常 5 です)。
  2. 各少数派クラスのデータポイントについて:
    1. K 個の最も近い近傍のうちの 1 つを選択します。
    2. 特徴空間内のこれらの 2 つの点を結ぶ線分上のランダムな点を選択して、新しい出力サンプルを生成します (補間)。
    3. 必要なアップサンプリング量に応じて、異なる最近傍点を使用して選択と補間の手順を繰り返します。

SMOTE は、既存のデータ ポイントを複製するのではなく、新しい、これまでに見たことのないデータ ポイントを追加することで、ランダム オーバーサンプリングのオーバーフィッティングの問題に対処します。このため、SMOTE は多くの研究者に好まれる手法となっています。ただし、SMOTE の人工データ ポイントの生成によって余分なノイズが生じ、分類器が不安定になる可能性があります。さらに、合成ポイントによって少数クラスと多数クラスが重複し、現実を反映しない結​​果になり、過度な一般化につながる可能性があります。

 

ボーダーラインSMOTE

ボーダーライン SMOTE は、人工データセットのノイズを減らし、決定境界に近いため分類がより困難な「より困難な」データ ポイントを作成するように設計された、SMOTE 手法の一般的な拡張です。これらのより困難なデータ ポイントは、モデルの学習プロセスに特に有益です。

境界 SMOTE は、多数の多数クラス ポイントに近い少数クラス ポイントを識別し、それらを DANGER セットにグループ化することで機能します。これらの DANGER ポイントは、決定境界に近いため分類が困難です。選択プロセスでは、最も近い隣接ポイントが多数クラス ポイントのみであるポイントはノイズと見なされるため除外されます。DANGER セットが確立されると、SMOTE アルゴリズムが通常どおり適用され、このセットから合成データ ポイントが生成されます。

1. ナイーブオーバーサンプリング:

  • 説明: 少数派グループから特定のサンプルをランダムに選択し、データセット内で複製します。これにより、少数派クラスの代表性を高めることで、よりバランスの取れたデータ分布を実現できます。
  • 使用する場合: ナイーブオーバーサンプリングは、データセットのバランスをとるための単純なアプローチが必要な場合、特に計算リソースや複雑さを低く抑える必要があり、過剰適合のリスクが問題にならない場合に適切です。

 

2.スモート (合成少数派オーバーサンプリング技術) [1]:

  • 説明: SMOTE は、まず各少数派クラスのサンプルの k 個の最近傍を特定して、少数派クラスの合成サンプルを生成します。次に、これらの少数派サンプルを近傍に接続する線分に沿って新しい合成サンプルを作成し、新しい妥当な例を導入してデータセットのバランスを取ります。
  • 使用する場合: SMOTE は、特に数値的特徴を持つデータセットにおいて、データの構造と特性を保持する方法で少数クラスの表現を強化する必要がある場合に、より適切になります。
  • バリアント:
    • SMOTE-NC: 数値的特徴とカテゴリ的特徴の両方を含むデータセットに使用されます。
    • SMOTEN: カテゴリ特徴のみを持つデータセットに使用されます。

 

3. ADASYN(適応合成サンプリング) 【2]

  • 説明: ADASYN は、学習の難しさに応じて、さまざまな少数派クラスの例に加重分布を使用します。学習が容易な少数派クラスの例と比較して、学習が困難な少数派クラスの例に対して、より多くの合成データを生成します。
  • 使用する場合: ADASYN は、特定の少数クラスの例を分類するのが難しく、より良い学習のために追加の合成サンプルが必要となる不均衡なデータセットを処理する場合に、より適切です。

 

4.合成データ

  • 説明: 合成データとは、実際のデータの特性を模倣して人工的に生成されたデータを指します。機械学習モデルのトレーニングなど、さまざまな目的で実際のデータを補足または置き換えるために使用できます。
  • 使用する場合: 合成データは、データのプライバシーに関する懸念がある場合、実際のデータが不足しているか入手に費用がかかる場合、または機械学習モデルのトレーニング用にバランスの取れたデータセットを作成する場合に適しています。また、過剰適合を軽減し、まれなイベントに対処し、バイアスを減らし、規制要件に準拠するのにも適しています。

 

参照:

[1] NV Chawla、KW Bowyer、LOHall、WP Kegelmeyer、「SMOTE:合成少数派オーバーサンプリング技術」、人工知能研究ジャーナル、321-357、2002年。

[2] He、Haibo、Yang Bai、Edwardo A. Garcia、Shutao Li。「ADASYN:不均衡学習のための適応型合成サンプリングアプローチ」、IEEE国際ニューラルネットワーク合同会議(IEEE計算知能世界会議)、pp.1322-1328、2008年。

データの再調整 分散システム内のノードまたはパーティション間でデータを再配布して、リソースの最適な使用率と負荷のバランスを確保します。データが追加、削除、更新されたり、ノードが追加または削除されたりすると、不均衡が生じる可能性があります。これらの不均衡により、一部のノードが頻繁に使用され、他のノードが十分に使用されないホットスポットや、非効率的なデータ アクセス パターンが発生する可能性があります。

 

データの再バランス調整が重要な理由

  • パフォーマンスの最適化: 再バランス調整を行わないと、一部のノードが過負荷になり、他のノードが十分に活用されないままになり、パフォーマンスのボトルネックが発生する可能性があります。
  • フォールトトレランス: Hadoop の HDFS や Apache Kafka などの分散ストレージ システムでは、フォールト トレランスのためにデータが複数のノードに複製されることがよくあります。適切な再バランス調整により、データ レプリカが適切に分散され、ノード障害に対するシステムの回復力が強化されます。
  • スケーラビリティ: クラスターが拡大または縮小すると、再バランス調整によって新しいノードを効率的に統合したり、古いノードを廃止したりできるようになります。
  • ストレージ効率: データが均等に分散されるようにすることで、クラスター全体で使用可能なストレージ容量を最大限に活用できます。

 

[ソース]

合成データでより良く、より速く構築

データ アクセスを解放し、開発を加速し、データ プライバシーを強化します。今すぐ当社の専門家とのセッションを予約してください。