USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 02:46 PM

視覺任務

當前，半監督學習的發展如火如荼。但是現有的半監督學習基準大多局限於電腦視覺分類任務，排除了對自然語言處理、音訊處理等分類任務的一致和多樣化評估。此外，大部分半監督論文由大型機構發表，學術界的實驗室往往由於計算資源的限製而很難參與推動該領域的發展。

為此，微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark（USB）：第一個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準。

該論文不僅引入了更多樣化的應用領域，還首次利用視覺預訓練模型大大縮減了半監督演算法的驗證時間，使得半監督研究對研究者，特別是小研究團體比較友善。相關論文已被國際人工智慧領域頂尖學術大會 NeurIPS 2022 接收。

USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

文章連結：https://arxiv.org/pdf/2208.07204.pdf

程式碼連結：https://github.com/microsoft/Semi-supervised-learning

監督學習透過建立模型來擬合有標記數據，當使用監督學習 (supervised learning)對大量高品質的標記數據（labeled data）進行訓練時，神經網路模型會產生有競爭力的結果。

例如，根據 Paperswithcode 網站統計，在 ImageNet 這一百萬量級的資料集上，傳統的監督式學習方法可以達到超過88%的準確率。然而，取得大量有標籤的數據往往費時費力。

為了緩解對標註資料的依賴，半監督學習（semi-supervised learning/SSL）致力於在僅有少量的標註資料時利用大量無標籤資料（unlabeled data）來提升模型的泛化性。半監督學習亦是機器學習的重要主題之一。在深度學習之前，這一領域的研究者提出了諸如半監督支持向量機、熵正則化、協同訓練等經典演算法。

深度半監督學習

隨著深度學習的興起，深度半監督學習演算法也取得了長足的進步。同時，包括微軟、Google、和 Meta 等在內的科技公司也意識到了半監督學習在實際場景中的巨大潛力。

例如，Google利用噪音學生訓練（noisy student training）這一半監督演算法提高了其在搜尋方面的效能[1]。目前最具代表性的半監督演算法通常對標註資料使用交叉熵損失進行訓練，對無標註資料使用一致性正規技術（consistency regularization）鼓勵對輸入擾動進行不變預測。

例如，Google在NeurIPS 2020 提出的FixMatch[2] 演算法，利用增強錨定（augmentation anchoring）和固定閾值（fixed thresholding）技術來增強模型對不同強度增強數據的泛化性和減少雜訊偽標籤（noisy pseudo labels）的影響。在訓練中，FixMatch 過濾了低於使用者指定（user-provided / pre-defined）閾值的無標籤資料。

微軟亞洲研究院與東京工業大學等在NeurIPS 2021 合作提出的FlexMatch[3] 則考慮到了不同類別之間的學習難度不同，因此提出了課程偽標籤（ curriculum pseudo labeling）技術，對於不同類別應該採用不同的閾值。

具體來說，對於容易學習的類別，模型應該設定高閾值以降低雜訊偽標籤的影響；對於難學習的類別，模型應該設定低閾值鼓勵該類別的擬合。每個類別的學習難度評估取決於落入該類別且高於固定值的未標記資料樣本的數量。

同時，微軟亞洲研究院的研究員們也合作提出了一個統一的基於Pytorch 的半監督方法程式碼庫TorchSSL[4]，對該領域的深度方法、常用數據集和基準結果進行了統一的支援。

USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準圖1：FlexMatch 演算法流程

#目前半監督學習程式碼庫存在的問題與挑戰

儘管半監督學習的發展如火如荼，但是，研究員們注意到目前大部分半監督方向的論文只關注計算機視覺(CV) 分類任務，對於其他領域，例如自然語言處理(NLP)、音頻處理(audio)，研究者無法得知這些在CV 任務上有效的演算法到了不同領域是否依然有效。

另外，大部分半監督相關的論文都是由大型機構發表，學術界的實驗室往往由於計算資源的限製而很難參與到推動該領域的發展中。總的來說，半監督學習基準目前有以下兩個問題：

（1）多樣性不足。現有的半監督學習基準大多局限於CV 分類任務（即CIFAR-10/100，SVHN，STL-10 和ImageNet 分類），排除了對NLP、audio 等分類任務的一致和多樣化評估，而在NLP和audio 中缺乏足夠的標記資料也是一個普遍問題。

（2）耗時且對學術界不友善。現有的半監督學習基準（如 TorchSSL）通常是耗時且不環保的，因為它往往需要從頭開始訓練深度神經網路模型。具體而言，使用TorchSSL 評估 FixMatch[1]大約需要300個 GPU 日。如此高的訓練成本使得許多研究實驗室（尤其是學術界的實驗室或小型研究團體）無法負擔得起 SSL 的相關研究，從而阻礙了 SSL 的進展。

USB：任務多樣化且對研究者更友善的新基準庫

為了解決上述問題，微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark（USB），這是第一個將視覺、語言和音頻分類任務進行統一的半監督分類學習基準。

比起先前的半監督學習基準（如TorchSSL）只專注於少量視覺任務，該基準不僅引入了更多樣化的應用領域，還首次利用視覺預訓練模型（pretrained vision Transformer）大幅縮減了半監督演算法的驗證時間（從7000 GPU 時縮減至900 GPU 時），從而使得半監督研究對研究者、特別是小研究團體更為友善。

相關論文已被國際人工智慧領域的頂尖學術大會 NeurIPS 2022 接收。（點擊「閱讀原文」以了解更多）

USB 提供的解決方案

那麼，USB 如何一次解決目前半監督基準所存在的問題呢？研究員們主要進行瞭如下改進：

（1）為增強任務多樣性，USB 引入了5個CV 資料集，5個NLP 資料集和5個audio 資料集，並提供了一個多樣化且具有挑戰性的基準，從而能夠對來自不同領域的多個任務進行一致的評估。表1提供了 USB 與 TorchSSL 的任務和訓練時間等方面的詳細比較。

USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

#表1：USB 與TorchSSL 框架的任務與訓練時間比較

#（2）為了提升訓練效率，研究員將預先訓練的vision Transformer 引入SSL，而不是從頭開始訓練ResNets。具體而言，研究員發現在不影響表現的情況下使用預訓練模型可以大幅減少訓練迭代次數（例如，將 CV 任務的訓練迭代次數從100萬步減少到20萬步）。

（3）為了對研究人員更加友好，研究員們開源實現了14種 SSL 演算法並開源了一個模組化程式碼庫和相關的設定檔以供研究者輕鬆再現 USB 報告中的結果。為了快速上手，USB 還提供了詳細的文件和教學。此外，USB 還提供了 pip 套件以供用戶直接呼叫 SSL 演算法。研究員們承諾未來在 USB 中不斷加入新的演算法（例如不平衡半監督演算法等）和更多更具挑戰性的資料集。表2展示了 USB 中已支援的演算法和模組。

USB：首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準