搜尋
首頁科技週邊人工智慧USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

當前,半監督學習的發展如火如荼。但是現有的半監督學習基準大多局限於電腦視覺分類任務,排除了對自然語言處理、音訊處理等分類任務的一致和多樣化評估。此外,大部分半監督論文由大型機構發表,學術界的實驗室往往由於計算資源的限製而很難參與推動該領域的發展。

為此,微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark(USB):第一個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準。

該論文不僅引入了更多樣化的應用領域,還首次利用視覺預訓練模型大大縮減了半監督演算法的驗證時間,使得半監督研究對研究者,特別是小研究團體比較友善。相關論文已被國際人工智慧領域頂尖學術大會 NeurIPS 2022 接收。

USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

文章連結:https://arxiv.org/pdf/2208.07204.pdf

程式碼連結:https://github.com/microsoft/Semi-supervised-learning

監督學習透過建立模型來擬合有標記數據,當使用監督學習 (supervised learning)對大量高品質的標記數據(labeled data)進行訓練時,神經網路模型會產生有競爭力的結果。

例如,根據 Paperswithcode 網站統計,在 ImageNet 這一百萬量級的資料集上,傳統的監督式學習方法可以達到超過88%的準確率。然而,取得大量有標籤的數據往往費時費力。

為了緩解對標註資料的依賴,半監督學習(semi-supervised learning/SSL)致力於在僅有少量的標註資料時利用大量無標籤資料(unlabeled data)來提升模型的泛化性。半監督學習亦是機器學習的重要主題之一。在深度學習之前,這一領域的研究者提出了諸如半監督支持向量機、熵正則化、協同訓練等經典演算法。

深度半監督學習

隨著深度學習的興起,深度半監督學習演算法也取得了長足的進步。同時,包括微軟、Google、和 Meta 等在內的科技公司也意識到了半監督學習在實際場景中的巨大潛力。

例如,Google利用噪音學生訓練(noisy student training)這一半監督演算法提高了其在搜尋方面的效能[1]。目前最具代表性的半監督演算法通常對標註資料使用交叉熵損失進行訓練,對無標註資料使用一致性正規技術(consistency regularization)鼓勵對輸入擾動進行不變預測。

例如,Google在NeurIPS 2020 提出的FixMatch[2] 演算法,利用增強錨定(augmentation anchoring)和固定閾值(fixed thresholding)技術來增強模型對不同強度增強數據的泛化性和減少雜訊偽標籤(noisy pseudo labels)的影響。在訓練中,FixMatch 過濾了低於使用者指定(user-provided / pre-defined)閾值的無標籤資料。

微軟亞洲研究院與東京工業大學等在NeurIPS 2021 合作提出的FlexMatch[3] 則考慮到了不同類別之間的學習難度不同,因此提出了課程偽標籤( curriculum pseudo labeling)技術,對於不同類別應該採用不同的閾值。

具體來說,對於容易學習的類別,模型應該設定高閾值以降低雜訊偽標籤的影響;對於難學習的類別,模型應該設定低閾值鼓勵該類別的擬合。每個類別的學習難度評估取決於落入該類別且高於固定值的未標記資料樣本的數量。

同時,微軟亞洲研究院的研究員們也合作提出了一個統一的基於Pytorch 的半監督方法程式碼庫TorchSSL[4],對該領域的深度方法、常用數據集和基準結果進行了統一的支援。

USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準圖1:FlexMatch 演算法流程

#目前半監督學習程式碼庫存在的問題與挑戰

儘管半監督學習的發展如火如荼,但是,研究員們注意到目前大部分半監督方向的論文只關注計算機視覺(CV) 分類任務,對於其他領域,例如自然語言處理(NLP)、音頻處理(audio),研究者無法得知這些在CV 任務上有效的演算法到了不同領域是否依然有效。

另外,大部分半監督相關的論文都是由大型機構發表,學術界的實驗室往往由於計算資源的限製而很難參與到推動該領域的發展中。總的來說,半監督學習基準目前有以下兩個問題:

(1)多樣性不足。現有的半監督學習基準大多局限於CV 分類任務(即CIFAR-10/100,SVHN,STL-10 和ImageNet 分類),排除了對NLP、audio 等分類任務的一致和多樣化評估,而在NLP和audio 中缺乏足夠的標記資料也是一個普遍問題。

(2)耗時且對學術界不友善。現有的半監督學習基準(如 TorchSSL)通常是耗時且不環保的,因為它往往需要從頭開始訓練深度神經網路模型。具體而言,使用TorchSSL 評估 FixMatch[1]大約需要300個 GPU 日。如此高的訓練成本使得許多研究實驗室(尤其是學術界的實驗室或小型研究團體)無法負擔得起 SSL 的相關研究,從而阻礙了 SSL 的進展。

USB:任務多樣化且對研究者更友善的新基準庫

為了解決上述問題,微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基美隆大學、馬克斯-普朗克研究所等機構的科研人員提出了Unified SSL Benchmark(USB),這是第一個將視覺、語言和音頻分類任務進行統一的半監督分類學習基準。

比起先前的半監督學習基準(如TorchSSL)只專注於少量視覺任務,該基準不僅引入了更多樣化的應用領域,還首次利用視覺預訓練模型(pretrained vision Transformer)大幅縮減了半監督演算法的驗證時間(從7000 GPU 時縮減至900 GPU 時),從而使得半監督研究對研究者、特別是小研究團體更為友善。

相關論文已被國際人工智慧領域的頂尖學術大會 NeurIPS 2022 接收。 (點擊「閱讀原文」以了解更多)

USB 提供的解決方案

那麼,USB 如何一次解決目前半監督基準所存在的問題呢?研究員們主要進行瞭如下改進:

(1)為增強任務多樣性,USB 引入了5個CV 資料集,5個NLP 資料集和5個audio 資料集,並提供了一個多樣化且具有挑戰性的基準,從而能夠對來自不同領域的多個任務進行一致的評估。表1提供了 USB 與 TorchSSL 的任務和訓練時間等方面的詳細比較。

USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

#表1:USB 與TorchSSL 框架的任務與訓練時間比較

#(2)為了提升訓練效率,研究員將預先訓練的vision Transformer 引入SSL,而不是從頭開始訓練ResNets。具體而言,研究員發現在不影響表現的情況下使用預訓練模型可以大幅減少訓練迭代次數(例如,將 CV 任務的訓練迭代次數從100萬步減少到20萬步)。

(3)為了對研究人員更加友好,研究員們開源實現了14種 SSL 演算法並開源了一個模組化程式碼庫和相關的設定檔以供研究者輕鬆再現 USB 報告中的結果。為了快速上手,USB 還提供了詳細的文件和教學。此外,USB 還提供了 pip 套件以供用戶直接呼叫 SSL 演算法。研究員們承諾未來在 USB 中不斷加入新的演算法(例如不平衡半監督演算法等)和更多更具挑戰性的資料集。表2展示了 USB 中已支援的演算法和模組。

USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

表2:USB 中已支援的演算法與模組

半監督學習透過利用大量無標籤資料來訓練更精確、更穩健的模型,在未來有著重要的研究和應用價值。微軟亞洲研究院的研究員們期待透過 USB 這項工作,能夠予力學術界和工業界在半監督學習領域取得更大的進展。

以上是USB:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。