搜尋
首頁科技週邊人工智慧通用小樣本學習器:適用於各種密集預測任務的解決方案

國際學習表徵會議 ICLR(International Conference on Learning Representations),被公認為目前最具影響力的機器學習國際學術會議之一。

在今年的 ICLR 2023 大會上,微軟亞洲研究院發表了在機器學習穩健性、負責任的人工智慧等領域的最新研究成果。

其中,微軟亞洲研究院與韓國科學技術院(KAIST)在雙方學術合作框架下的科研合作成果,因其出色的清晰性、洞察力、創造力和潛在的持久影響獲評ICLR 2023 傑出論文獎。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

#論文網址:https://arxiv.org/abs/2303.14969

VTM:首個適合所有密集預測任務的小樣本學習器

密集預測任務是電腦視覺領域的一類重要任務,如語意分割、深度估計、邊緣偵測和關鍵點偵測等。對於這類任務,手動標註像素級標籤面臨著難以承受的巨額成本。因此,如何從少量的標註資料中學習並作出準確預測,即小樣本學習,是該領域備受關注的課題。近年來,關於小樣本學習的研究不斷取得突破,尤其是一些基於後設學習和對抗學習的方法,深受學術界的關注和歡迎。

然而,現有的電腦視覺小樣本學習方法一般針對特定的某一類任務,如分類任務或語意分割任務。它們通常在設計模型架構和訓練過程中利用特定於這些任務的先驗知識和假設,因此不適合推廣到任意的密集預測任務。微軟亞洲研究院的研究員們希望探究一個核心問題:是否存在一個通用的小樣本學習器,可以從少量標記圖像中學習任意段未見過的密集預測任務。

一個密集預測任務的目標是學習從輸入圖像到以像素為單位註釋的標籤的映射,它可以被定義為:

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

#其中H 和W 分別是影像的高與寬,輸入影像一般包含RGB 三個通道,C_Τ 表示輸出通道的數目。不同的密集預測任務可能涉及不同的輸出通道數目和通道屬性,如語意分割任務的輸出是多通道二值的,而深度估計任務的輸出是單通道連續值的。一個通用的小樣本學習器F,對於任何這樣的任務Τ,在給定少量標記樣本支持集S_Τ(包含了N 組樣本X^i 和標註Y^i)的情況下,可以為未見過的查詢圖像X^q 產生預測,即:

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

如果存在適合任意密集預測任務的通用小樣本學習器,那麼必須滿足以下期望:

  • 首先,它必須具備e 統一的體系結構。該結構能夠處理任意密集預測任務,並共享大多數任務所需的參數,以便獲取可泛化的知識,從而能以小量樣本學習任意未見過的任務。
  • 其次,學習器應該靈活地調整其預測機制,以解決具有各種語義的未見過的任務,同時足夠高效,以防止過度擬合。

因此,微軟亞洲研究院的研究員設計並實現了小樣本學習器視覺token匹配VTM(Visual Token Matching),其可用於任意的密集預測任務。這是首個適配所有密集預測任務的小樣本學習器,VTM 為電腦視覺中密集預測任務的處理以及小樣本學習方法打開了全新的思路。這份工作獲得了 ICLR 2023 傑出論文獎

VTM 的設計靈感源自於類比人類的思考過程:給定一個新任務的少量範例,人類可以根據範例之間的相似性快速將類似的輸出分配給類似的輸入,同時也可以根據給定的上下文靈活變通輸入和輸出之間在哪些層面相似。研究員們使用基於影像區塊(patch)層級的非參數匹配實現了密集預測的類比過程。透過訓練,模型被啟發出了捕捉影像區塊中相似性的能力。

給定一個新任務的少量標記範例,VTM 首先會根據給定的範例以及範例的標籤調整其對相似性的理解,從範例影像區塊中鎖定與待預測影像區塊相似的影像區塊,透過組合它們的標籤來預測未見過的影像區塊的標籤。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

圖1:VTM 的整體架構

VTM 採用分層的編碼器-解碼器架構,在多個層次上實現了基於影像區塊的非參數匹配。它主要由四個模組組成,分別為影像編碼器 f_Τ、標籤編碼器 g、匹配模組和標籤解碼器 h。給定查詢圖像和支援集,圖像編碼器首先會獨立地提取每個查詢和支援圖像的圖像塊級表達。標籤編碼器也會類似地提取每個支援標籤的標記。在每個層次的標記給定後,匹配模組會執行非參數匹配,最終由標籤解碼器推斷出查詢圖像的標籤。

VTM 的本質是一個元學習方法。其訓練由多個 episode 組成,每個 episode 模擬一個小樣本學習問題。 VTM 訓練運用到了元訓練資料集 D_train,其中包含多種有標籤的密集預測任務範例。每個訓練 episode 都會模擬資料集中特定任務 T_train 的小樣本學習場景,目標是在給定支援集的條件下,為查詢影像產生正確的標籤。透過多個小樣本學習的經驗,模型能夠學習到通用的知識,以便快速、靈活地適應新的任務。在測試時,模型需要在訓練資料集 D_train 中未包含的任意任務 T_test 上進行小樣本學習。

在處理任意任務時,由於元訓練和測試中的每個任務的輸出維度 C_Τ 不同,因此使得為所有任務設計統一的通用模型參數成為了巨大挑戰。為了提供一個簡單而普適的解決方案,研究員將任務轉換為 C_Τ 個單通道子任務,分別學習每個通道,並使用共享的模型 F 獨立地對每個子任務進行建模。

為了測試 VTM ,研究員們也特別建構了 Taskonomy 資料集的變種,從而模擬未見過的密集預測任務的小樣本學習。 Taskonomy 包含各種標註過的室內圖像,研究員從中選擇了十個具有不同語義和輸出維度的密集預測任務,將其分為五個部分用於交叉驗證。在每個拆分方式中,兩個任務用於小樣本評估(T_test),其餘八個任務用於訓練(T_train)。研究員們仔細建構了分區,使得訓練和測試任務彼此有足夠的差異,例如將邊緣任務(TE,OE)分組為測試任務,以便對新語義的任務進行評估。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

表1:在Taskonomy 資料集上的定量比較( Few-shot 基準在訓練了來自其他分區的任務後,在需測試的分區任務上進行了10-shot 學習,其中完全監督的基線在每個fold(DPT)或所有fold(InvPT)上訓練和評估了任務)

表1和圖2分別定量與定性地展示了 VTM 和兩類基準模型在十個密集預測任務上的小樣本學習表現。其中,DPT 和 InvPT 是兩種最先進的監督學習方法,DPT 可獨立地針對每個單一任務進行訓練,而 InvPT 則可以共同訓練所有任務。由於在VTM 之前還沒有針對通用密集預測任務開發的專用小樣本方法,因此研究員們將VTM 與三種最先進的小樣本分割方法,即DGPNet、HSNet 和VAT,進行對比,並將它們拓展到處理密集預測任務的一般標籤空間。 VTM 在訓練期間沒有訪問測試任務T_test,並且僅在測試時使用了少量(10張)的標記圖像,但它卻在所有小樣本基線模型中表現得最好,並且在許多任務中的表現都具備與全監督基準模型比較的競爭力。

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

圖2:在Taskonomy 的十個密集預測任務中,在新任務上僅提供十張標記圖像的小樣本學習方法的定性比較。在其他方法失敗的情況下, VTM 成功地學習了所有具有不同語義和不同標籤表示的新任務。

在圖2中,虛線上方的分別是真實標籤和兩種監督學習方法 DPT 和 InvPT。虛線下方的是小樣本學習方法。值得注意的是,其他小樣本基準在新任務上出現了災難性的欠擬合,而 VTM 成功地學習了所有任務。實驗說明,VTM 可以在極少量的標記示例(

總結來說,儘管VTM 的底層思路非常簡單,但它具有統一的體系結構,可用於任意密集預測任務,因為匹配演算法本質上包含所有任務和標籤結構(例如,連續或離散)。此外,VTM 僅引入了少量的任務特定參數,就能具備抗過擬合與彈性。未來研究員希望進一步探討預訓練過程中的任務類型、資料量、以及資料分佈對模型泛化表現的影響,以幫助我們建構一個真正普適的小樣本學習器。

以上是通用小樣本學習器:適用於各種密集預測任務的解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版