搜尋
首頁科技週邊人工智慧BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

如何在卷積神經網路上運行 BERT?

你可以直接用SparK —— 位元組跳動技術團隊提出的稀疏層次化掩碼建模(Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling),近期已被人工智慧頂會收錄為Spotlight 焦點論文:


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

論文連結:

# #https://www.php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

##開源程式碼:

#https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f

#這也是BERT 在卷積神經網路(CNN) 上的第一次成功 。先來感受一下 SparK 在預訓練中的表現。

輸入一張殘缺不全的圖片:


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

還原出一隻小狗:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

。一張殘缺圖片:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

#原來是貝果三明治:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

#其他場景也可實現圖片復原:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

BERT 與Transformer 的天作之合

#「任何偉大的行動和思想,都有一個微不足道的開始。

##在BERT 預訓練演算法的背後,是簡潔而深刻的設計。 BERT 使用「完形填空」:將一句話中的若干字詞隨機刪除,並讓模型學會恢復。

BERT 非常依賴NLP 領域的核心模型— Transformer

Transformer 由於生來就適合處理可變長度的序列資料(例如一個英文句子),所以能輕鬆應付BERT 完形填空的「隨機刪除」。

視覺領域的 CNN 也想享受 BERT:兩個挑戰何在?

#

回顧電腦視覺發展史,卷積神經網路模型#凝練了平移等變性、多尺度結構等等眾多經典模式精華,可謂CV 界的中流砥柱。但與 Transformer 大相徑庭的是,CNN 天生無法適應經過完形填空「挖空」的、充滿「隨機孔洞」的數據,因此乍一看無法享受到 BERT 預訓練的紅利。


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight


上圖a.展示的是MAE (Masked Autoencoders are Scalable Visual Learners) 這項工作,由於使用的是Transformer 模型而非CNN 模型,其可以靈活應對經過帶有空洞的輸入,乃與BERT “天作之合”。

而右圖b. 則展示了一種粗暴融合BERT 和CNN 模型的方式——即把全部空洞區域“塗黑”,並將這張「黑馬賽克」圖輸入到CNN 中,結果可想而知,會帶來嚴重的像素強度分佈偏移問題,並導致很差的性能(後文有驗證)。這就是阻礙 BERT 在 CNN 上成功應用的挑戰一

此外,作者團隊也指出,源自NLP 領域的BERT 演算法,天然不具備「多尺度」的特點,而多尺度的金字塔結構在電腦視覺的悠久歷史中可謂「黃金標準」。單尺度的 BERT,和天然多尺度的 CNN 之間的衝突,則是#挑戰二##。

解決方案SparK:稀疏且層次化的遮罩建模


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight


##作者團隊提出了SparK (Sparse and hierarchical masKed modeling) 來解決前文兩個挑戰。

其一,受三維點雲資料處理的啟發,作者團隊提出將經過遮罩操作(挖空操作) 後的零碎圖片視為稀疏點雲,並使用子流形稀疏卷積(Submanifold Sparse Convolution) 來進行編碼。這就讓卷積網路能夠自如處理隨機刪除後的影像。

其二,受UNet 優雅設計的啟發,作者團隊自然地設計了一種帶有橫向連接的編碼器-解碼器模型,讓多尺度特徵在模型的多層次之間流動,讓BERT 徹底擁抱電腦視覺的多尺度黃金標準。

至此,為卷積網路 (CNN) 量身定制的稀疏的、多尺度的掩碼建模演算法 SparK 誕生了。

SparK 是#通用的:其可直接運用在任何卷積網絡上,而無需對它們的結構進行任何修改,或引入任何額外的組件——不論是我們耳熟能詳的經典ResNet,還是近期的先進模型ConvNeXt,均可直接從SparK 中受益。

從ResNet 到ConvNeXt:三大視覺任務效能提升

#作者團隊選擇了具代表性的兩個卷積模型家族ResNet 和ConvNeXt,並在影像分類,目標偵測、實例分割任務上進行了效能測試。

在經典ResNet-50 模型上,SparK 作為唯一的生成式預訓練,達到了State-of-the-art 水準:


#

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

在 ConvNeXt 模型上,#SparK 依舊領先##。在預訓練前,ConvNeXt 與Swin-Transformer 平分秋色;而經過預訓練後,ConvNeXt 在三個任務上均壓倒性超過了Swin-Transformer:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

##當從小到大,在完整的模型家族上驗證SparK,便可觀察到:

無論模型的大與小、新與舊,均可從SparK 中受益,且隨著模型尺寸/訓練開銷的增長,漲幅甚至更高,體現出SparK 演算法的擴展(scaling) 能力:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

最後,作者團隊也設計了一個驗證性的消融實驗,從中可見稀疏遮罩層次化結構第3行與第4行) 都是非常關鍵的設計,一旦缺失就會造成嚴重的效能衰退:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

以上是BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用