搜尋
首頁科技週邊人工智慧通用小樣本學習器:適用於各種密集預測任務的解決方案

國際學習表徵會議 ICLR(International Conference on Learning Representations),被公認為目前最具影響力的機器學習國際學術會議之一。

在今年的 ICLR 2023 大會上,微軟亞洲研究院發表了在機器學習穩健性、負責任的人工智慧等領域的最新研究成果。

其中,微軟亞洲研究院與韓國科學技術院(KAIST)在雙方學術合作框架下的科研合作成果,因其出色的清晰性、洞察力、創造力和潛在的持久影響獲評ICLR 2023 傑出論文獎。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

#論文網址:https://arxiv.org/abs/2303.14969

VTM:首個適合所有密集預測任務的小樣本學習器

密集預測任務是電腦視覺領域的一類重要任務,如語意分割、深度估計、邊緣偵測和關鍵點偵測等。對於這類任務,手動標註像素級標籤面臨著難以承受的巨額成本。因此,如何從少量的標註資料中學習並作出準確預測,即小樣本學習,是該領域備受關注的課題。近年來,關於小樣本學習的研究不斷取得突破,尤其是一些基於後設學習和對抗學習的方法,深受學術界的關注和歡迎。

然而,現有的電腦視覺小樣本學習方法一般針對特定的某一類任務,如分類任務或語意分割任務。它們通常在設計模型架構和訓練過程中利用特定於這些任務的先驗知識和假設,因此不適合推廣到任意的密集預測任務。微軟亞洲研究院的研究員們希望探究一個核心問題:是否存在一個通用的小樣本學習器,可以從少量標記圖像中學習任意段未見過的密集預測任務。

一個密集預測任務的目標是學習從輸入圖像到以像素為單位註釋的標籤的映射,它可以被定義為:

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

#其中H 和W 分別是影像的高與寬,輸入影像一般包含RGB 三個通道,C_Τ 表示輸出通道的數目。不同的密集預測任務可能涉及不同的輸出通道數目和通道屬性,如語意分割任務的輸出是多通道二值的,而深度估計任務的輸出是單通道連續值的。一個通用的小樣本學習器F,對於任何這樣的任務Τ,在給定少量標記樣本支持集S_Τ(包含了N 組樣本X^i 和標註Y^i)的情況下,可以為未見過的查詢圖像X^q 產生預測,即:

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

如果存在適合任意密集預測任務的通用小樣本學習器,那麼必須滿足以下期望:

  • 首先,它必須具備e 統一的體系結構。該結構能夠處理任意密集預測任務,並共享大多數任務所需的參數,以便獲取可泛化的知識,從而能以小量樣本學習任意未見過的任務。
  • 其次,學習器應該靈活地調整其預測機制,以解決具有各種語義的未見過的任務,同時足夠高效,以防止過度擬合。

因此,微軟亞洲研究院的研究員設計並實現了小樣本學習器視覺token匹配VTM(Visual Token Matching),其可用於任意的密集預測任務。這是首個適配所有密集預測任務的小樣本學習器,VTM 為電腦視覺中密集預測任務的處理以及小樣本學習方法打開了全新的思路。這份工作獲得了 ICLR 2023 傑出論文獎

VTM 的設計靈感源自於類比人類的思考過程:給定一個新任務的少量範例,人類可以根據範例之間的相似性快速將類似的輸出分配給類似的輸入,同時也可以根據給定的上下文靈活變通輸入和輸出之間在哪些層面相似。研究員們使用基於影像區塊(patch)層級的非參數匹配實現了密集預測的類比過程。透過訓練,模型被啟發出了捕捉影像區塊中相似性的能力。

給定一個新任務的少量標記範例,VTM 首先會根據給定的範例以及範例的標籤調整其對相似性的理解,從範例影像區塊中鎖定與待預測影像區塊相似的影像區塊,透過組合它們的標籤來預測未見過的影像區塊的標籤。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

圖1:VTM 的整體架構

VTM 採用分層的編碼器-解碼器架構,在多個層次上實現了基於影像區塊的非參數匹配。它主要由四個模組組成,分別為影像編碼器 f_Τ、標籤編碼器 g、匹配模組和標籤解碼器 h。給定查詢圖像和支援集,圖像編碼器首先會獨立地提取每個查詢和支援圖像的圖像塊級表達。標籤編碼器也會類似地提取每個支援標籤的標記。在每個層次的標記給定後,匹配模組會執行非參數匹配,最終由標籤解碼器推斷出查詢圖像的標籤。

VTM 的本質是一個元學習方法。其訓練由多個 episode 組成,每個 episode 模擬一個小樣本學習問題。 VTM 訓練運用到了元訓練資料集 D_train,其中包含多種有標籤的密集預測任務範例。每個訓練 episode 都會模擬資料集中特定任務 T_train 的小樣本學習場景,目標是在給定支援集的條件下,為查詢影像產生正確的標籤。透過多個小樣本學習的經驗,模型能夠學習到通用的知識,以便快速、靈活地適應新的任務。在測試時,模型需要在訓練資料集 D_train 中未包含的任意任務 T_test 上進行小樣本學習。

在處理任意任務時,由於元訓練和測試中的每個任務的輸出維度 C_Τ 不同,因此使得為所有任務設計統一的通用模型參數成為了巨大挑戰。為了提供一個簡單而普適的解決方案,研究員將任務轉換為 C_Τ 個單通道子任務,分別學習每個通道,並使用共享的模型 F 獨立地對每個子任務進行建模。

為了測試 VTM ,研究員們也特別建構了 Taskonomy 資料集的變種,從而模擬未見過的密集預測任務的小樣本學習。 Taskonomy 包含各種標註過的室內圖像,研究員從中選擇了十個具有不同語義和輸出維度的密集預測任務,將其分為五個部分用於交叉驗證。在每個拆分方式中,兩個任務用於小樣本評估(T_test),其餘八個任務用於訓練(T_train)。研究員們仔細建構了分區,使得訓練和測試任務彼此有足夠的差異,例如將邊緣任務(TE,OE)分組為測試任務,以便對新語義的任務進行評估。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

表1:在Taskonomy 資料集上的定量比較( Few-shot 基準在訓練了來自其他分區的任務後,在需測試的分區任務上進行了10-shot 學習,其中完全監督的基線在每個fold(DPT)或所有fold(InvPT)上訓練和評估了任務)

表1和圖2分別定量與定性地展示了 VTM 和兩類基準模型在十個密集預測任務上的小樣本學習表現。其中,DPT 和 InvPT 是兩種最先進的監督學習方法,DPT 可獨立地針對每個單一任務進行訓練,而 InvPT 則可以共同訓練所有任務。由於在VTM 之前還沒有針對通用密集預測任務開發的專用小樣本方法,因此研究員們將VTM 與三種最先進的小樣本分割方法,即DGPNet、HSNet 和VAT,進行對比,並將它們拓展到處理密集預測任務的一般標籤空間。 VTM 在訓練期間沒有訪問測試任務T_test,並且僅在測試時使用了少量(10張)的標記圖像,但它卻在所有小樣本基線模型中表現得最好,並且在許多任務中的表現都具備與全監督基準模型比較的競爭力。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

圖2:在Taskonomy 的十個密集預測任務中,在新任務上僅提供十張標記圖像的小樣本學習方法的定性比較。在其他方法失敗的情況下, VTM 成功地學習了所有具有不同語義和不同標籤表示的新任務。

在圖2中,虛線上方的分別是真實標籤和兩種監督學習方法 DPT 和 InvPT。虛線下方的是小樣本學習方法。值得注意的是,其他小樣本基準在新任務上出現了災難性的欠擬合,而 VTM 成功地學習了所有任務。實驗說明,VTM 可以在極少量的標記示例(

總結來說,儘管VTM 的底層思路非常簡單,但它具有統一的體系結構,可用於任意密集預測任務,因為匹配演算法本質上包含所有任務和標籤結構(例如,連續或離散)。此外,VTM 僅引入了少量的任務特定參數,就能具備抗過擬合與彈性。未來研究員希望進一步探討預訓練過程中的任務類型、資料量、以及資料分佈對模型泛化表現的影響,以幫助我們建構一個真正普適的小樣本學習器。

以上是通用小樣本學習器:適用於各種密集預測任務的解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境