USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク-AI-php.cn

ホームページ

テクノロジー周辺機器

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 02:46 PM

ビジョンタスク

現在、半教師あり学習の開発が本格化しています。ただし、既存の半教師あり学習ベンチマークは、ほとんどがコンピュータビジョン分類タスクに限定されており、自然言語処理や音声処理などの分類タスクの一貫した多様な評価は含まれていません。さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究室がこの分野の進歩に参加することが困難であることがよくあります。

この目的を達成するために、Microsoft Research Asia の研究者とウェストレイク大学、東京工業大学、カーネギーメロン大学、マックスプランク研究所およびその他の機関の研究者は、統一 SSL ベンチマーク (USB) を提案しました。視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク。

この論文では、より多様な応用分野を紹介するだけでなく、視覚的な事前トレーニングモデルを初めて使用して、半教師ありアルゴリズムの検証時間を大幅に短縮し、半教師ありアルゴリズムを実現します。教師あり研究は研究者にとってより便利であり、特に小規模な研究グループはより友好的です。人工知能分野のトップ国際学会であるNeurIPS 2022に関連論文が採択されました。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

記事リンク: https://arxiv.org/pdf/2208.07204.pdf

##コードリンク: https://github.com/microsoft/Semi-supervised-learning

教師あり学習ラベル付きデータに適合するモデルを構築する場合、ニューラルネットワークモデルは、教師あり学習を使用して大量の高品質のラベル付きデータでトレーニングすると、競争力のある結果を生み出します。

たとえば、Paperswithcode Web サイトの統計によると、ImageNet の 100 万レベルのデータセットでは、従来の教師あり学習手法は 88% 以上の精度を達成できます。ただし、大量のラベル付きデータを取得するには、多くの場合、時間と労力がかかります。

ラベル付きデータへの依存を軽減するために、半教師あり学習 (SSL) は、ラベル付きデータが少量しかない場合に大量のラベルなしデータを利用することに取り組んでいます。モデルの一般化を改善します。半教師あり学習も機械学習の重要なトピックの 1 つです。深層学習が登場する前に、この分野の研究者は、半教師ありサポートベクターマシン、エントロピー正則化、協調トレーニングなどの古典的なアルゴリズムを提案しました。

深層半教師あり学習

深層学習の台頭により、深層半教師あり学習アルゴリズムも大きな進歩を遂げました。同時に、Microsoft、Google、Meta などのテクノロジー企業も、実践的なシナリオにおける半教師あり学習の大きな可能性を認識しています。

たとえば、Google は、検索パフォーマンスを向上させるために、半教師ありアルゴリズムである騒々しい学生トレーニングを使用しています [1]。現在、最も代表的な半教師ありアルゴリズムは、ラベル付きデータのトレーニングにクロスエントロピー損失を使用し、ラベルなしデータの一貫性正則化を使用して、入力摂動に対する不変予測を促進します。

たとえば、NeurIPS 2020 で Google が提案した FixMatch[2] アルゴリズムは、拡張アンカリングおよび固定しきい値処理テクノロジーを使用してモデルを強化し、さまざまな強度でデータを強化します。騒々しい疑似ラベルの。トレーニング中に、FixMatch はユーザー指定/事前定義のしきい値を下回るラベルのないデータをフィルターします。

NeurIPS 2021 で Microsoft Research Asia と東京工業大学が共同提案した FlexMatch[3] は、カテゴリーごとに異なる学習の難しさを考慮して、コースの擬似ラベルを提案しています。 (カリキュラム擬似ラベリング) テクノロジーでは、カテゴリごとに異なるしきい値を使用する必要があります。

具体的には、学習しやすいカテゴリの場合、モデルはノイズの多い疑似ラベルの影響を軽減するために高いしきい値を設定する必要があります。学習が難しいカテゴリの場合、モデルは次のようにする必要があります。このカテゴリへの適合を促進するために、低いしきい値を設定します。各クラスの学習難易度の評価は、そのクラスに分類されるラベルなしデータサンプルの数と固定値を超える数に依存します。

同時に、Microsoft Research Asia の研究者らも協力して、統合された Pytorch ベースの半教師ありメソッドコードライブラリ TorchSSL[4] を提案しました。これは、深いメソッドと共通データを提供します。セットとベンチマーク結果は一律にサポートされます。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク #図 1: FlexMatch アルゴリズムプロセス

現在の半教師あり学習コードライブラリの問題と課題

半教師あり学習の開発は本格化していますが、研究者らは、半教師あり学習に関する現在の論文のほとんどがコンピュータービジョン (CV) 分類タスクのみに焦点を当てていることに気づいています。自然言語処理などの他の分野については ( NLP) や音声処理 (オーディオ) など、CV タスクで有効なこれらのアルゴリズムが、さまざまな分野でも依然として有効であるかどうかは、研究者にはわかりません。

さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究機関がこの分野の発展促進に参加することが困難であることがよくあります。。一般に、半教師あり学習ベンチマークには現在、次の 2 つの問題があります。

(1) 多様性が不十分です。既存の半教師あり学習ベンチマークのほとんどは、CV 分類タスク (つまり、CIFAR-10/100、SVHN、STL-10、ImageNet 分類) に限定されており、NLP、オーディオなどの分類タスクの一貫した多様な評価は含まれていません。、NLP では、音声と音声に十分なラベル付きデータが不足していることもよくある問題です。

(2) 時間がかかり、学術界に不親切です。 TorchSSL などの既存の半教師あり学習ベンチマークは、多くの場合、ディープニューラルネットワークモデルを最初からトレーニングする必要があるため、時間がかかり、環境に優しくありません。具体的には、TorchSSL を使用して FixMatch[1] を評価するには、GPU で約 300 日かかります。このような高額なトレーニング費用により、多くの研究機関 (特に学術界や小規模な研究グループ) では SSL 関連の研究を行うことができなくなり、SSL の進歩が妨げられています。

USB: 多様なタスクを備え、研究者にとってよりフレンドリーな新しいベンチマークライブラリ

上記の問題を解決するために、Microsoft Research Asia の研究者がウェストレイク大学と提携しました。 , 東京TU、カーネギーメロン大学、マックス・プランク研究所などの研究者らは、視覚、言語、音声の分類タスク学習ベンチマークを統合する初の半教師あり分類である統一SSLベンチマーク（USB）を提案した。

少数の視覚的タスクのみに焦点を当てた以前の半教師あり学習ベンチマーク (TorchSSL など) と比較して、このベンチマークはより多様なアプリケーション分野を導入するだけでなく、視覚的タスクも活用します。このモデル (事前トレーニング済みビジョン Transformer) により、半教師ありアルゴリズムの検証時間が大幅に短縮され (7000 GPU 時間から 900 GPU 時間に)、半教師あり研究が研究者、特に小規模な研究グループにとってより使いやすくなります。。

国際人工知能分野のトップ学術会議であるNeurIPS 2022に関連論文が採択されました。 (詳細については、「原文を読む」をクリックしてください)

USB が提供するソリューション

では、USB は、現在の半教師ありベンチマークの問題をどのように解決できるのでしょうか。一発??

(1) タスクの多様性を高めるために、USB は 5 つの CV データセット、5 つの NLP データセット、および 5 つのオーディオデータセットを導入し、多様なデータセットを提供します。異なるドメインの複数のタスクを一貫して評価できる、挑戦的なベンチマークです。表 1 は、USB と TorchSSL のタスクとトレーニング時間の詳細な比較を示しています。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

#表 1: USB フレームワークと TorchSSL フレームワーク間のタスクとトレーニング時間の比較

(2) トレーニング効率を向上させるために、研究者は ResNet を最初からトレーニングするのではなく、事前トレーニングされたビジョン Transformer を SSL に導入しました。具体的には、研究者らは、事前トレーニングされたモデルを使用すると、パフォーマンスに影響を与えることなくトレーニング反復数を大幅に削減できることを発見しました（たとえば、CV タスクのトレーニング反復数を 100 万ステップから 200,000 ステップに削減）。

(3) 研究者にとってより使いやすいように、研究者は 14 の SSL アルゴリズムをオープンソースとして実装し、研究者が USB レポートで結果を簡単に再現できるように、モジュラーコードライブラリと関連構成ファイルをオープンソース化しました。すぐに始められるよう、USB には詳細なドキュメントとチュートリアルも用意されています。さらに、USB は、ユーザーが SSL アルゴリズムを直接呼び出すための pip パッケージも提供します。研究者らは、今後も新しいアルゴリズム（アンバランス半教師ありアルゴリズムなど）やより困難なデータセットをUSBに追加し続けることを約束している。表 2 は、USB ですでにサポートされているアルゴリズムとモジュールを示しています。

USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク

#表 2: USB でサポートされるアルゴリズムとモジュール

セミ教師あり学習は、大量のラベルなしデータを利用してより正確で堅牢なモデルをトレーニングするため、将来的に重要な研究および応用価値をもたらします。 Microsoft Research Asia の研究者は、この USB の成果を利用して、半教師あり学習の分野で学界と産業界がさらに進歩できることを楽しみにしています。

以上がUSB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。