ホームページ >テクノロジー周辺機器 >AI >ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

王林
王林転載
2023-09-06 12:13:101285ブラウズ

自己教師あり学習アルゴリズムは、自然言語処理やコンピューター ビジョンなどの分野で大きな進歩を遂げました。これらの自己教師あり学習アルゴリズムは概念的には一般的ですが、その特定の操作は特定のデータ モダリティに基づいています。これは、異なるデータ モダリティに対して異なる自己教師あり学習アルゴリズムを開発する必要があることを意味します。この目的を達成するために、この文書では、あらゆるデータ モダリティに適用できる一般的なデータ拡張手法を提案します。既存の汎用自己教師あり学習と比較して、この方法は大幅なパフォーマンスの向上を達成でき、特定のモダリティ向けに設計された一連の複雑なデータ拡張方法を置き換えて、同様のパフォーマンスを達成できます。

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

  • 文書アドレス: https://arxiv.org/abs/2212.08663
  • コード: https://github.com/microsoft/random_quantize
##概要

書き換えられた内容: 現在、シャム表現学習/対比学習では、データ拡張技術を使用して同じデータの異なるサンプルを構築し、それらを 2 つの並列ネットワーク構造に入力して十分に強力な監視信号を生成する必要があります。ただし、これらのデータ拡張技術は通常、モダリティ固有の事前知識に大きく依存しており、多くの場合、手動による設計や現在のモダリティに適した最適な組み合わせの検索が必要です。発見された最良のデータ拡張方法は、時間と労力がかかるだけでなく、他の分野に移すのも困難です。たとえば、自然な RGB 画像によくあるカラー ジッタリングは、自然な画像以外の他のデータ モダリティには適用できません。

一般に、入力データは次のように表すことができます。シーケンスの次元とチャネルの次元。シーケンスの次元は、画像の空間次元、音声の時間次元、言語の構文次元など、データのモダリティに関連することがよくあります。チャネルの次元はモダリティには依存しません。自己教師あり学習では、オクルージョン モデリング、またはデータ拡張としてオクルージョンを使用することが効果的な学習方法となっています。ただし、これらの操作はシーケンス次元で実行されます。さまざまなデータ モダリティに広く適用できるように、この論文ではチャネル次元に作用するデータ拡張方法、つまりランダム量子化を提案します。不均一量子化器を使用して各チャネルのデータを動的に量子化することで、量子化された値がランダムに分割された間隔からランダムにサンプリングされます。このようにして、異なる間隔のデータの相対的なサイズを保持しながら、同じ間隔の元の入力の情報の差分が削除され、それによってマスキングの効果が得られます

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています#この手法は、自然画像、3D 点群、音声、テキスト、センサー データ、医療画像などを含むさまざまなデータ モダリティにおいて、既存の自己教師あり学習手法を上回ります。対照学習 (MoCo-v3 など) や自己蒸留自己教師あり学習 (BYOL など) などのさまざまなトレーニング前の学習タスクで、既存の方法よりも優れた機能が学習されます。この方法は、CNN や Transformer などのさまざまなバックボーン ネットワーク構造でも検証されています。

方法

量子化とは、データの効率的な保存と操作を容易にするために、一連の離散数値を使用して連続データを表すことを指します。そして送信。ただし、量子化操作の一般的な目標は、精度を失わずにデータを圧縮することであるため、プロセスは決定論的であり、元のデータにできる限り近づくように設計されています。これにより、強化手段としての強度と出力のデータの豊富さが制限されます。

#この記事では、各入力チャネル データを複数の重複しないランダムな間隔 (

) に独立して分割し、元のデータをマッピングするランダム化量子化操作を提案します。各間隔内にある入力を、その間隔からランダムにサンプリングされた定数 ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています に変換します。 ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

#自己教師あり学習タスクにおけるマスキング チャネル ディメンション データとしてのランダム量子化の機能は、次の 3 つの側面の設計に依存します。 1) ランダム数値区間の分割、2) ランダムにサンプリングされた出力値、および 3) 分割された数値区間の数。

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

具体的には、ランダム プロセスによりサンプルが豊富になり、ランダム定量化操作が実行されるたびに同じデータから異なるデータ サンプルが生成される可能性があります。同時に、ランダム処理により、元のデータがさらに強化されます。たとえば、大きなデータ間隔がランダムに分割されたり、マッピング ポイントが間隔の中央点から逸脱したりすると、元の入出力が損なわれる可能性があります。間隔の間に落ち、差が大きくなります。

区間の分割数を適宜減らすことで、強調強度を容易に高めることができる。このようにして、シャム表現学習に適用すると、2 つのネットワーク ブランチは十分な情報差を持つ入力データを受信できるため、強力な学習信号が構築され、特徴学習に役立ちます

次の図は、このデータ拡張方法を使用した後のさまざまなデータ モダリティの効果を視覚化したものです:

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

#実験結果

リライト内容は次のとおりです: モード 1: 画像

この記事では、MoCo-v3 に適用されるランダム化量子化を評価します。BYOL の効果の評価指標は線形評価です。唯一のデータ拡張方法として単独で使用した場合、つまり、この記事の拡張を元の画像の中央のトリミングに適用した場合、および一般的なランダム サイズ変更トリミング (RRC) と組み合わせて使用​​した場合、この方法はより良い結果を達成しました。既存の一般的な自己教師付き学習方法よりも優れた結果が得られます。

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

カラー ジッタリング (CJ) など、画像データ用に開発された既存のデータ拡張方法と比較して、この記事の方法には明らかなパフォーマンス上の利点があります。同時に、この方法は、カラー ジッタリング、ランダム グレー スケール、ランダム ガウス ブラー、ランダム露出 (ソラライゼーション) など、MoCo-v3/BYOL の一連の複雑なデータ拡張方法 (フル) を置き換えることもでき、同様の効果を実現できます。複雑なデータ拡張方法。

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

#書き直す必要がある内容は次のとおりです: モード 2: 3D 点群

##ModelNet40 データセットの分類タスクと ShapeNet Part データセットのセグメンテーション タスクにおいて、この研究では、既存の自己教師あり手法に対するランダム量子化の優位性が検証されました。特に下流のトレーニング セットのデータ量が少ない場合、この研究の方法は既存の点群自己教師ありアルゴリズムを大幅に上回ります

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

書き直された内容: 3 番目のモード: 音声

音声データセットに関しても、この記事の方法は既存の方法よりも優れた結果を達成しました。教師あり学習法のパフォーマンスが向上します。本稿では、6 つの下流データセットでこの手法の優位性を検証し、その中でも最も困難なデータセット VoxCeleb1 (カテゴリ数が最も多く、他のデータセット数をはるかに上回る) において、この手法は大幅な性能向上を達成しました。 (5.6点)。

ユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています##書き換えられた内容は次のとおりです: モード 4: DABS

DABS は、自然画像、テキスト、音声、センサー データ、医療画像、グラフィックスなどを含むさまざまなモーダル データをカバーする一般的な自己教師あり学習ベンチマークです。 DABS でカバーされるさまざまなモーダル データに関して、私たちの方法は既存のモーダル自己教師あり学習方法よりも優れています。

興味のある読者は元の論文を読むことができます。研究内容について詳しく知りたい場合はユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適しています

以上がユニバーサルデータ強化テクノロジー、ランダム量子化はあらゆるデータモダリティに適していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。