ホームページ  >  記事  >  テクノロジー周辺機器  >  USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

WBOY
WBOY転載
2023-04-13 14:46:031223ブラウズ

現在、半教師あり学習の開発が本格化しています。ただし、既存の半教師あり学習ベンチマークは、ほとんどがコンピュータ ビジョン分類タスクに限定されており、自然言語処理や音声処理などの分類タスクの一貫した多様な評価は含まれていません。さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究室がこの分野の進歩に参加することが困難であることがよくあります。

この目的を達成するために、Microsoft Research Asia の研究者とウェストレイク大学、東京工業大学、カーネギーメロン大学、マックス プランク研究所およびその他の機関の研究者は、統一 SSL ベンチマーク (USB) を提案しました。視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク。

この論文では、より多様な応用分野を紹介するだけでなく、視覚的な事前トレーニング モデルを初めて使用して、半教師ありアルゴリズムの検証時間を大幅に短縮し、半教師ありアルゴリズムを実現します。教師あり研究は研究者にとってより便利であり、特に小規模な研究グループはより友好的です。人工知能分野のトップ国際学会であるNeurIPS 2022に関連論文が採択されました。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

記事リンク: https://arxiv.org/pdf/2208.07204.pdf

##コードリンク: https://github.com/microsoft/Semi-supervised-learning

教師あり学習ラベル付きデータに適合するモデルを構築する場合、ニューラル ネットワーク モデルは、教師あり学習を使用して大量の高品質のラベル付きデータでトレーニングすると、競争力のある結果を生み出します。

たとえば、Paperswithcode Web サイトの統計によると、ImageNet の 100 万レベルのデータセットでは、従来の教師あり学習手法は 88% 以上の精度を達成できます。ただし、大量のラベル付きデータを取得するには、多くの場合、時間と労力がかかります。

ラベル付きデータへの依存を軽減するために、半教師あり学習 (SSL) は、ラベル付きデータが少量しかない場合に大量のラベルなしデータを利用することに取り組んでいます。モデルの一般化を改善します。半教師あり学習も機械学習の重要なトピックの 1 つです。深層学習が登場する前に、この分野の研究者は、半教師ありサポート ベクター マシン、エントロピー正則化、協調トレーニングなどの古典的なアルゴリズムを提案しました。

深層半教師あり学習

深層学習の台頭により、深層半教師あり学習アルゴリズムも大きな進歩を遂げました。同時に、Microsoft、Google、Meta などのテクノロジー企業も、実践的なシナリオにおける半教師あり学習の大きな可能性を認識しています。

たとえば、Google は、検索パフォーマンスを向上させるために、半教師ありアルゴリズムである騒々しい学生トレーニングを使用しています [1]。現在、最も代表的な半教師ありアルゴリズムは、ラベル付きデータのトレーニングにクロスエントロピー損失を使用し、ラベルなしデータの一貫性正則化を使用して、入力摂動に対する不変予測を促進します。

たとえば、NeurIPS 2020 で Google が提案した FixMatch[2] アルゴリズムは、拡張アンカリングおよび固定しきい値処理テクノロジーを使用してモデルを強化し、さまざまな強度でデータを強化します。騒々しい疑似ラベルの。トレーニング中に、FixMatch はユーザー指定/事前定義のしきい値を下回るラベルのないデータをフィルターします。

NeurIPS 2021 で Microsoft Research Asia と東京工業大学が共同提案した FlexMatch[3] は、カテゴリーごとに異なる学習の難しさを考慮して、コースの擬似ラベルを提案しています。 (カリキュラム擬似ラベリング) テクノロジーでは、カテゴリごとに異なるしきい値を使用する必要があります。

具体的には、学習しやすいカテゴリの場合、モデルはノイズの多い疑似ラベルの影響を軽減するために高いしきい値を設定する必要があります。学習が難しいカテゴリの場合、モデルは次のようにする必要があります。このカテゴリへの適合を促進するために、低いしきい値を設定します。各クラスの学習難易度の評価は、そのクラスに分類されるラベルなしデータ サンプルの数と固定値を超える数に依存します。

同時に、Microsoft Research Asia の研究者らも協力して、統合された Pytorch ベースの半教師ありメソッド コード ライブラリ TorchSSL[4] を提案しました。これは、深いメソッドと共通データを提供します。セットとベンチマーク結果は一律にサポートされます。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク#図 1: FlexMatch アルゴリズム プロセス

現在の半教師あり学習コード ライブラリの問題と課題

半教師あり学習の開発は本格化していますが、研究者らは、半教師あり学習に関する現在の論文のほとんどがコンピューター ビジョン (CV) 分類タスクのみに焦点を当てていることに気づいています。自然言語処理などの他の分野については ( NLP) や音声処理 (オーディオ) など、CV タスクで有効なこれらのアルゴリズムが、さまざまな分野でも依然として有効であるかどうかは、研究者にはわかりません。

さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究機関がこの分野の発展促進に参加することが困難であることがよくあります。 。一般に、半教師あり学習ベンチマークには現在、次の 2 つの問題があります。

(1) 多様性が不十分です。既存の半教師あり学習ベンチマークのほとんどは、CV 分類タスク (つまり、CIFAR-10/100、SVHN、STL-10、ImageNet 分類) に限定されており、NLP、オーディオなどの分類タスクの一貫した多様な評価は含まれていません。 、NLP では、音声と音声に十分なラベル付きデータが不足していることもよくある問題です。

(2) 時間がかかり、学術界に不親切です。 TorchSSL などの既存の半教師あり学習ベンチマークは、多くの場合、ディープ ニューラル ネットワーク モデルを最初からトレーニングする必要があるため、時間がかかり、環境に優しくありません。具体的には、TorchSSL を使用して FixMatch[1] を評価するには、GPU で約 300 日かかります。このような高額なトレーニング費用により、多くの研究機関 (特に学術界や小規模な研究グループ) では SSL 関連の研究を行うことができなくなり、SSL の進歩が妨げられています。

USB: 多様なタスクを備え、研究者にとってよりフレンドリーな新しいベンチマーク ライブラリ

上記の問題を解決するために、Microsoft Research Asia の研究者がウェストレイク大学と提携しました。 , 東京TU、カーネギーメロン大学、マックス・プランク研究所などの研究者らは、視覚、言語、音声の分類タスク学習ベンチマークを統合する初の半教師あり分類である統一SSLベンチマーク(USB)を提案した。

少数の視覚的タスクのみに焦点を当てた以前の半教師あり学習ベンチマーク (TorchSSL など) と比較して、このベンチマークはより多様なアプリケーション分野を導入するだけでなく、視覚的タスクも活用します。このモデル (事前トレーニング済みビジョン Transformer) により、半教師ありアルゴリズムの検証時間が大幅に短縮され (7000 GPU 時間から 900 GPU 時間に)、半教師あり研究が研究者、特に小規模な研究グループにとってより使いやすくなります。 。

国際人工知能分野のトップ学術会議であるNeurIPS 2022に関連論文が採択されました。 (詳細については、「原文を読む」をクリックしてください)

USB が提供するソリューション

では、USB は、現在の半教師ありベンチマークの問題をどのように解決できるのでしょうか。一発??

(1) タスクの多様性を高めるために、USB は 5 つの CV データ セット、5 つの NLP データ セット、および 5 つのオーディオ データ セットを導入し、多様なデータ セットを提供します。異なるドメインの複数のタスクを一貫して評価できる、挑戦的なベンチマークです。表 1 は、USB と TorchSSL のタスクとトレーニング時間の詳細な比較を示しています。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

#表 1: USB フレームワークと TorchSSL フレームワーク間のタスクとトレーニング時間の比較

(2) トレーニング効率を向上させるために、研究者は ResNet を最初からトレーニングするのではなく、事前トレーニングされたビジョン Transformer を SSL に導入しました。具体的には、研究者らは、事前トレーニングされたモデルを使用すると、パフォーマンスに影響を与えることなくトレーニング反復数を大幅に削減できることを発見しました(たとえば、CV タスクのトレーニング反復数を 100 万ステップから 200,000 ステップに削減)。

(3) 研究者にとってより使いやすいように、研究者は 14 の SSL アルゴリズムをオープンソースとして実装し、研究者が USB レポートで結果を簡単に再現できるように、モジュラー コード ライブラリと関連構成ファイルをオープンソース化しました。すぐに始められるよう、USB には詳細なドキュメントとチュートリアルも用意されています。さらに、USB は、ユーザーが SSL アルゴリズムを直接呼び出すための pip パッケージも提供します。研究者らは、今後も新しいアルゴリズム(アンバランス半教師ありアルゴリズムなど)やより困難なデータセットをUSBに追加し続けることを約束している。表 2 は、USB ですでにサポートされているアルゴリズムとモジュールを示しています。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

#表 2: USB でサポートされるアルゴリズムとモジュール

セミ教師あり学習は、大量のラベルなしデータを利用してより正確で堅牢なモデルをトレーニングするため、将来的に重要な研究および応用価値をもたらします。 Microsoft Research Asia の研究者は、この USB の成果を利用して、半教師あり学習の分野で学界と産業界がさらに進歩できることを楽しみにしています。

以上がUSB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。